ARHITECTURA CALCULATELOR ȘI PROIECTAREA SISTEMULUI CALCULATORULUI A PATRA EDITIE D PATTERSON J HENNESSY ^PPPR SERIE NLRSINYa INFORMATICĂ - JUPITER David A Patterson John L Hennessy ORGANIZAREA SI PROIECTAREA CALCULATORULUI Ediția a IV-a ELSEVIER CLASIC COfTlPUTEA SCIENCE D Patterson, J Hennessy ARHITECTURA CALCULATELOR ȘI PROIECTAREA SISTEMULUI CALCULATORULUI A PATRA EDITIE PETRU' Moscova ■ Sankt Petersburg ■ Nijni Novgorod ■ Voronej Rostov-pe-Don • Ekaterinburg ■ Samara Novosibirsk Kiev • Harkov ■ Minsk Sh , - UZH "M HSU Patterson D , Hamaaavv *■ P Arhitectura kaachyumra ■ proiectarea devizelor computerizate Computer clasic» Sctewa al -lea ■* - Sankt Petersburg Petru, - p ; bolnav isbn gi și h—I » Carte ■■■■* tshg • " sh^msh gusmiiii organizarea structurală voayapaottre și reflectat pce ^ n ^ M ^ Mt * gykzhyzh e*cuu>uw ■ zona de hardware atât cip, în special strvsh^eshgіі a^am et a—^iiiidinі" sisteme și multi-ilsry miaro^jumscom- În din acest mv^ie moaatpa ^iii re computer și dispozitivul la toate apizhimnіue despre yessarm Іnm magician, ieșire întreruptă și "rănirea datelor" Diferențele dintre hardware și software de sistem citat după papai ttaii poyaaosazhtt pentru a consolida materialul Cartea este destinată unui cerc larg de cititori din -tekite, gtmgmn tehnologii compozite ÎNAINTE experimentat* raіrabotchzhaoa care hotvt și vіchііі gі^i manny аоiiiеіііцп programare multiprocesor B K - UDC OM Drepturile asupra iiwbbm sunt obținute prin acord cu Equater Inc Toate drepturile rezervate Informații solvrzhzhtsaya și di oem-ul meu obtinut din istomnie raosyatrіmaeyazhіa de către editura este de încredere Tesh not meіme imev și În formă de pli technics umane ^ ooyae oyyaibyg editura nu poate garanta acuratețea și caracterul complet al informațiilor furnizate și nu îi pasă de acuratețea și caracterul complet al informațiilor furnizate S N * en SBN V $- - - Din sau Eivevie' 'ne O Traducere în rusă Editura yuyh LLC -Peter- О Publicare în limba rusă Editura izyae design LLC -Liter- Cuprins scurt Cuvânt înainte nouă Capitolul Abstracții și tehnologii computerizate Capitolul Instrucțiuni: Limbajul computerului capitolul Capitolul Procesor capitolul Capitolul Stocarea informațiilor și alte subiecte conexe Cu intrare-ieșire Capitolul Sisteme și clustere multicore, multiprocesor Cuprins Cuvânt înainte nouă Capitolul Abstracții și tehnologii computerizate Introducere Ce se află sub programul dvs Ce se ascunde sub capacul carcasei computerului Performanță Bariera cererii de energie Tranziție de schimbare fundamentală de la unul la mai multe procesoare Echipamente reale: teste de producție și evaluare AMD Opteron X Concepții greșite și neînțelegeri Comentarii de închidere Exerciții Capitolul Instrucțiuni: Limbajul computerului Introducere Operatii efectuate de echipamente informatice Operanzi hardware de calculator Numere semnate și nesemnate Prezentarea instrucțiunilor pe computer Operații logice Instrucțiuni pentru luarea unei decizii Suport pentru proceduri în hardware-ul computerului Comunicarea cu oamenii - Adresare MIPS pentru valori imediate pe de biți și adrese Concurență și instrucțiuni: sincronizare Difuzarea și pornirea unui program - Combinând tot ce s-a discutat anterior în exercițiu despre sortarea în C Compararea matricelor și a indicatorilor Hardware real: Instrucțiuni ARM Hardware real: instrucțiuni x Concepții greșite și neînțelegeri Observații de încheiere Cuprins Exerciții Răspunsul la întrebările de autoverificare Capitolul Aritmetica pentru calculatoare Introducere Adunare si scadere Multiplicare Diviziune Numere în virgulă mobilă Paralelism și aritmetică computerizată: asociativitate Hardware real: calcule în virgulă mobilă x Concepții greșite și neînțelegeri Observații de încheiere Exerciții Răspunsul la întrebările de autoverificare Capitolul Procesor Introducere Convenţii de proiectare logică Crearea unui bloc de operare Diagrama simplă de implementare Privire de ansamblu asupra conductelor Unitate de operare și sistem de control echipat cu transportor Comparația conflictelor de date între transmiterea și întârzierea datelor Conflicte de control Excepții Paralelism și paralelism extins la nivel de instrucție Conductă hardware reală AMD Opteron X (Barcelona) Concepții greșite și neînțelegeri Comentarii de închidere Exerciții Răspunsul la întrebările de autoverificare capitolul Introducere Elemente de bază ale memoriei cache Măsurarea și îmbunătățirea performanței memoriei cache Memorie virtuala Mediu comun pentru ierarhiile de memorie Mașini virtuale Folosind o mașină de stat pentru a controla un simplu cache Paralelism și ierarhii de memorie: integritatea datelor în memoria cache Hardware real: ierarhii de memorie AMD Opteron X (Barcelona) și Intel Nehalem Concepții greșite și neînțelegeri Observații de încheiere Exerciții Răspunsul la întrebările de autoverificare opt Cuprins Capitolul Stocarea informațiilor și alte subiecte conexe cu intrare-ieșire Introducere Fiabilitate, fiabilitate și disponibilitate Dispozitiv de stocare pe disc Unități flash Conexiune procesor memorie și dispozitive I/O Organizarea interfeței dispozitivelor de intrare-ieșire cu procesorul memorie şi sistem de operare Estimări de performanță I/O: Exemple înrudite cu discuri și sisteme de fișiere Proiectarea sistemelor I/O Paralelism și I/O: rețele redundante de discuri ieftine Hardware real: server Sun Fire x Concepţii greşite şi neînţelegeri Comentarii de închidere Exerciții Răspunsul la întrebările de autoverificare Capitolul Introducere Dificultăți în crearea de programe care rulează în paralel Multiprocesoare cu memorie partajată Clustere și alte multiprocesoare care transmit mesaje Hardware multithreading SISD, MIMD, SIMD, SPMDh utilizarea vectorilor Introducere în GPU-uri Introducere în topologia rețelelor multiprocesor Puncte de control pentru multiprocesoare Linia acoperișului: un model simplu de performanță Hardware real: rularea benchmark-urilor pe patru procesoare cu mai multe nuclee utilizând modelul Roofline Concepții greșite și neînțelegeri Observații de încheiere Exerciții Răspunsul la întrebările de autoverificare cuvânt înainte Cel mai frumos lucru pe care îl putem experimenta este incomprehensibilitatea Este sursa oricărei arte și științe adevărate Albert Einstein diferența dintre numărul de computere încorporate și desktop Dispozitivele încorporate au adesea cerințe foarte specifice pentru consumatori Supercomputer Clasa de calculatoare cu cele mai mari performanțe și costuri Calculatoarele din această clasă sunt proiectate să funcționeze ca servere și costă de obicei milioane de dolari Terabyte Inițial, acesta este de ( *') octeți, deși unele sisteme de comunicații și sisteme de stocare secundare redefinesc terabytes ca ( ") octeți Petabyte În funcție de situație, acesta este fie , fie terabytes centru de date O cameră sau o clădire proiectată pentru a furniza nevoile de alimentare, răcire și rețea ale unui număr mare de servere Computer încorporat Un computer care se află în interiorul altui dispozitiv și este utilizat pentru a rula o aplicație preinstalată sau un set de programe Capitolul Abstracții și tehnologii computerizate cerințe care combină performanța minimă cu cerințe stricte de cost sau de putere De exemplu, luați în considerare un player de muzică: ceea ce contează cel mai mult este că procesorul are viteza minimă necesară pentru a gestiona funcții extrem de limitate, reducând în același timp costul și consumul de energie În ciuda costului redus, computerele încorporate au o toleranță mai mică la defecțiuni, deoarece consecințele acestor defecțiuni pot varia de la o dispoziție proastă (când se sparge un televizor nou) până la cele mai extreme situații (de exemplu, când un computer de pe un avion sau o navă se defectează) În dispozitivele încorporate concepute pentru uz casnic, cum ar fi aparatele electrocasnice digitale, garanția funcționării fiabile se realizează în primul rând datorită simplității lor;accentul principal este pus pe performanța cea mai completă a unei singure funcții împrumutate de la servere (vezi secțiunea ) Deși această carte [► se ocupă în principal de calculatoarele de uz general, majoritatea conceptelor pe care le introduce se aplică, direct sau cu modificări minore, și computerelor încorporate Orez Numărul de telefoane mobile, computere personale și televizoare produse între și (Datele de televiziune sunt disponibile numai din ) În , peste un miliard de telefoane mobile noi au fost livrate comerțului În , vânzările de telefoane mobile au depășit vânzările de PC-uri de doar , ori, dar până în acest exces a crescut la , ori Numărul total de echipamente folosite în a fost estimat la aproximativ miliarde de televizoare , miliarde de telefoane mobile și , miliarde de computere personale Deoarece populația lumii în era de aproximativ , miliarde de oameni, exista aproximativ un computer pentru fiecare opt oameni de pe planetă , telefoane mobile și , televizoare Un sondaj din asupra gospodăriilor americane a arătat că acestea dețin, în medie, dispozitive electronice, inclusiv trei televizoare două computere personale și alte câteva dispozitive precum console de jocuri Jucători MRE și telefoane mobile Introducere Clarificare Clarificările sunt mici subsecțiuni folosite pe tot parcursul textului pentru a oferi informații mai detaliate despre un anumit subiect Toata lumea cei care nu sunt interesați pot sări peste clarificare, deoarece materialul ulterior nu va avea legătură cu conținutul său Multe procesoare încorporate sunt proiectate folosind nuclee de procesor o versiune a procesorului scrisă într-un limbaj de descriere hardware, cum ar fi WinDID sau VHDL (vezi Capitolul ) Nucleul permite designerului să combine alt hardware specializat cu nucleul procesorului pentru a realiza un singur cip Ce se poate învăța citind această carte Programatorilor serioși le-a păsat întotdeauna performanța programelor lor deoarece obținerea rapidă a rezultatelor de către utilizator este o măsură importantă în crearea de programe de succes În anii și ai secolului trecut, principalul factor limitator în performanța computerelor a fost cantitatea de memorie a acestora Prin urmare, programatorii au respectat adesea o regulă simplă: minimizarea cantității de memorie folosită pentru a accelera programele În ultimul deceniu, progresele în proiectarea computerelor și tehnologia memoriei au redus foarte mult importanța utilizării unei cantități mici de memorie în multe aplicații, cu excepția celor utilizate în sistemele informatice încorporate Programatorii care doresc să îmbunătățească performanța trebuie să înțeleagă acum problemele care au înlocuit modelele simple de memorie ale capetelor de procesoare paralele și memoria ierarhică din anii Programatorii care și-au propus să creeze compilatoare competitive, sisteme iterative, baze de date și chiar aplicații simple trebuie să-și îmbunătățească cunoștințele despre proiectarea computerelor ♦ Salutăm oportunitatea de a explica ce se află în interiorul acestei mașini revoluționare, cum ar fi un computer, dezvăluind subtilitățile software-ului care rulează sub programele dvs și hardware-ul care este ascuns în carcasa computerului dvs Credem că, după ce ai citit această carte, vei putea răspunde la următoarele întrebări: ♦ Ca programe scrise în limbaje de nivel înalt, cum ar fi C sau Java tradus în limba hardware-ului computerului și cum execută acel hardware programul rezultat? Înțelegerea acestor concepte oferă o bază pentru înțelegerea aspectelor hardware și software care afectează performanța programului ♦ Care este interfața dintre software și hardware și cum instruiesc programele hardware-ul să îndeplinească funcțiile necesare? Fără stăpânirea acestor concepte, este imposibil de înțeles asta cum să creați diferite tipuri de programe ♦ Ce determină performanța software-ului și cum o poate îmbunătăți un programator? Trebuie să înțelegem acea performanță Capitolul Abstracții și tehnologii computerizate depinde de programul original, de traducătorul care traduce programul în limba computerului și de eficiența echipamentului la executarea acestui program ♦ Ce tehnologii pot folosi proiectanții de hardware pentru a îmbunătăți productivitatea? În această carte? vor fi prezentate principalele concepte ale dezvoltării calculatoarelor moderne ♦ Care sunt cauzele și consecințele trecerii recente de la procesarea în serie la procesarea paralelă? Această carte oferă motivație, descrie hardware-ul modern de calcul paralel și oferă o privire de ansamblu asupra noii generații de microprocesoare „multi-core” (vezi Capitolul ) Fără a cunoaște răspunsurile la aceste întrebări, îmbunătățirea performanței programelor tale pe computerele de astăzi sau a determina ce caracteristici fac un computer mai bun decât altul pentru rezolvarea unor probleme specifice, va deveni un proces de încercare și eroare în loc de o abordare științifică bazată pe o înțelegere profundă a problemei și analiza datelor Primul capitol pune bazele pentru înțelegerea materialului din restul cărții Acest capitol vă prezintă ideile și definițiile de bază Microprocesor cu mai multe nuclee Un microprocesor format din mai multe procesoare („nuclee”) situate într-un singur circuit integrat Abreviere Un cuvânt format din primele litere dintr-un strat dintr-un șir De exemplu, RAM este o abreviere pentru șirul -Random Access Mem-ory, care înseamnă „Random Access Memory” sau -RAM", iar CPU este o abreviere pentru șirul "Cen-Iral Processing Unit", adică -central processing unit" sau pur și simplu "central processing unit" pune componentele majore ale software-ului și hardware-ului la locul lor, arată cum se evaluează performanța și puterea, oferă o imagine de ansamblu asupra circuitelor integrate (a căror introducere a inițiat revoluția computerelor) și explică motivele tranziției la sisteme multi-core În acest capitol și în următoarele capitole tu probabil că veți întâlni o mulțime de cuvinte noi sau acele cuvinte pe care le-ați auzit deja, dar nu sunteți sigur de înțelegerea corectă a sensului lor Nu vă faceți griji! Există într-adevăr o mulțime de termeni tehnici folosiți pentru a descrie computerele moderne, dar acești termeni sunt de real ajutor, permițându-ne să descriem mai precis orice funcție sau caracteristică De asemenea, designerilor de computere (inclusiv autorii acestei cărți) le place să folosească abrevieri care sunt mai ușor de înțeles atunci când cunoașteți semnificația literelor lor! Pentru a vă ajuta să vă amintiți și să recunoașteți anumiți termeni în viitor, alături de locul primei lor apariții în text vor exista bare laterale cu definițiile lor Pe măsură ce te obișnuiești cu termenii, vei învăța cum să-i pronunți, impresionându-ți prietenii cu utilizarea corectă a abrevierilor precum BIOS, CPU, DIMM, DRAM, PCIE, SATA și multe altele Pentru a sublinia problema influenței software și hardware folosit pentru a rula un program pe performanța acestuia, pe tot parcursul cărții există subsecțiuni speciale Înțelegerea performanței programelor, care rezumă toate punctele importante care ajută la pătrunderea în esența acestei probleme Mai jos este prima dintre astfel de subsecțiuni Introducere Înțelegerea performanței programului Performanța programelor depinde de o combinație între eficiența algoritmilor utilizați în program, sistemele software utilizate pentru a crea și traduce programul în instrucțiuni de mașină și eficiența computerului în executarea acelor instrucțiuni, care pot include intrare/ieșire operațiuni (I/O) Următorul tabel rezumă factorii care afectează performanța hardware și software Componentă hardware sau software Cum afectează această componentă performanța Unde este acoperit acest subiect? Algoritm Determină atât numărul de instrucțiuni la nivel de cod sursă, cât și numărul de operațiuni de intrare care trebuie efectuate *ayaoda În alte cărți' Limbaje de programare compilatoare și arhitectură Determinați numărul de instrucțiuni de calculator pentru fiecare instrucțiune la nivel de cod sursă Capitolele și Procesor și sistem de memorie Determinați viteza de execuție a instrucțiunilor Capitolele , și Sistem EIO (hardware și sistem de operare) Determină cât de repede pot fi finalizate operațiunile I/O Capitolul Autotestare Subsecțiunile de autoevaluare sunt concepute pentru a ajuta cititorii să-și evalueze înțelegerea conceptelor de bază prezentate în capitol și pentru a se asigura că înțeleg sensul acestor concepte Unele dintre întrebările din aceste subsecțiuni necesită răspunsuri simple, dar unele sunt pentru discuții în grup Răspunsurile la întrebări specifice pot fi găsite la sfârșitul capitolului Întrebările din subsecțiunea Autotestare apar doar la sfârșitul secțiunii și dacă sunteți sigur care au învățat tot materialul, pot fi săriți peste Secțiunea arată că numărul de procesoare încorporate vândute în fiecare an depășește semnificativ numărul de procesoare desktop vândute Puteți confirma sau infirma această observație pe baza propriei experiențe? Încercați să numărați numărul de procesoare încorporate din casa dvs Cum se compară acest număr cu numărul de desktop-uri din casa ta? După cum sa menționat deja, performanța programului este afectată ca software precum și hardware Vă puteți gândi la exemple în care una dintre următoarele a fost cauza principală a degradării performanței? Capitolul Computer abstrvvzha * tehnologie ♦ Tarif selectat ♦ Limbaj de programare sau compilator ♦ Sistem operațional ♦ ІІрікігтф ♦ Carteaa si dispozitive I/O Ce se află sub programul tău La Paris, s-au uitat la mine uimiți când spuneam ceva în franceză și nu am reușit niciodată să-i fac pe acești idioți să-și înțeleagă propria limbă Mark Twain „Simples în străinătate” O aplicație tipică, cum ar fi un procesor de text sau un sistem serios de gestionare a bazelor de date, poate avea câteva milioane de linii de cod și depinde de utilizarea unor biblioteci software complexe care implementează funcții complexe concepute pentru a susține aplicații Se va arăta în cele ce urmează că hardware-ul computerului poate executa instrucțiuni de nivel scăzut extrem de simple Pentru a trece de la aplicații complexe la instrucțiuni simple, sunt necesare mai multe straturi de software pentru a interpreta sau traduce operațiunile de nivel înalt în instrucțiuni simple de calculator Pe fig Figura arată că aceste straturi de software sunt organizate în primul rând într-o ierarhie, cu aplicația în inelul cel mai exterior și tot felul de software de sistem între hardware și programele de aplicație Există multe tipuri de programe de sistem, dar două dintre ele joacă un rol major în fiecare sistem informatic modern: sistemul de operare și compilatorul Sistemul de operare mediază între programul utilizatorului și hardware și oferă diverse servicii și funcții de control Cele mai importante dintre ele sunt: Software de sistem Software care furnizează toate serviciile publice, inclusiv sisteme de operare, compilatoare, încărcătoare și asamblatoare (asambleri) Sistem de operare Un program care gestionează resursele computerului în interesul programelor care rulează pe acesta Compilator Un program care traduce instrucțiuni de limbaj de nivel înalt • instrucțiuni de limbaj de asamblare ♦ prelucrarea operațiunilor de bază de intrare și ieșire; ♦ distribuirea facilităţilor de stocare şi memorie a informaţiilor ♦ asigurarea partajării în siguranță a unui computer de către mai multe aplicații simultan Linux, MacOS și Windows sunt exemple de sisteme de operare moderne Compilatorii îndeplinesc o altă funcție vitală de a traduce un program scris într-un limbaj de nivel înalt, cum ar fi Ce se află sub programul tău în C, O+, Java sau Visual Basic, în instrucțiuni pe care hardware-ul le poate executa Având în vedere complexitatea limbajelor de programare moderne și simplitatea instrucțiunilor executabile de hardware, traducătorul de limbaj de nivel înalt al instrucțiunilor hardware este un program foarte complex O scurtă prezentare a procesului de traducere va fi oferită în acest capitol, iar această problemă va fi discutată mai detaliat în capitolul Programe de aplicație Programe de sistem Hardware (hardware! (programul sistemului) (software de aplicație) cc O reprezentare simplificată a nivelurilor ierarhice de hardware și software, prezentate ca cercuri concentrice cu hardware-ul în centru și aplicațiile la periferie Aplicațiile complexe au adesea mai multe straturi software de aplicație proprii, fiind baza pentru aplicație, care, la rândul său, rulează deasupra bazei de date Trecerea de la limbajul de nivel înalt la limbajul hardware Pentru a comunica cu echipamentele electronice, trebuie să îi transmiteți semnale electrice Cele mai simple semnale pe care le poate înțelege un computer sunt întrerupătoarele de pornire și oprire deci sunt doar două în alfabetul computerului Așa cum cele de litere ale alfabetului englez nu pun nicio limită în ceea ce privește cât de mult text poate fi scris cu ele, cele două litere ale alfabetului computerului nu limitează capacitățile computerului Cele două litere pentru acestea două „litere” sunt numere Oh și t iar limbajul computerului este adesea exprimat în termeni de numere de bază , sau numere binare Ne referim la nt tetnp; temp = v|k), vfkl = v(k* k v(k+ ) ■ temp Compilator eu yal*r flUN $ , USD *dd iZ $ $ lw $ cu un calorifer Uneori, procesorul este numit CPU (CPU) sau, într-o formă mai birocratică, unitatea centrală de procesare (Central Processor Unit) Orez Structura internă a laptopului cu fig Cutia cu autocolantul alb pe partea stângă este un hard disk SATA de GB, iar cutia din partea dreaptă este o unitate DVD Ht fig - imagine de prim-plan a modulelor OIMM introduse de dedesubt Deasupra compartimentului bateriei și a unității DVD se află o placă de circuit imprimat (placă PC), numită placa de bază, care conține partea principală a umpluturii electronice a computerului Două obiecte rotunde pe partea de sus a fotografiei sunt ventilatoare în pachete Un procesor este un obiect dreptunghiular mare, bulbos* situat chiar sub ventilatorul din stânga Fotografie prin amabilitatea administrației site-ului Othe'WorldCon'piiting Ce se ascunde sub capacul carcasei computerului Orez un fragment mărit al unui laptop care prezintă module de memorie Memoria principală este formată din unul sau mai multe module mici, prezentate în partea stângă a fotografiei Spațiul pentru baterie este situat în dreapta Chipurile DRAM sunt montate pe plăci (numite module OIMM - de la module dual mhne) și apoi introduse în blocuri terminale Fotografie prin amabilitatea administrației site-ului OtherWorldComputinfl com Să continuăm procesul de aprofundare și echipament informatic: în fig prezintă detaliile microprocesorului În mod logic, procesorul include două componente principale: o unitate de operare și o unitate de control, adică părțile „executive” și „de gândire” ale procesorului Unitatea de operare efectuează operații aritmetice, iar unitatea de comandă dirijează acțiunile unității de operare, ale memoriei și ale dispozitivelor de intrare/ieșire în conformitate cu instrucțiunile instrucțiunilor programului Unitățile de operare și unitățile de control de înaltă performanță sunt descrise în capitolul Un studiu profund al oricărei componente ale computerului vă permite să înțelegeți mai bine subiectul ce se întâmplă în interiorul unui computer Procesorul are un alt tip de memorie numită memorie cache, care constă dintr-o memorie mică, rapidă, care acționează ca un buffer DRAM (Definiția tehnică a cuvântului „cache” este cache ) Memoria cache este construită Unitate centrală de procesare (CPU) Denumit și procesor Partea activă a unui computer care conține unitatea de operare și unitatea de control și este responsabilă cu adăugarea numerelor, verificarea acestora, semnalizarea activării dispozitivelor I/O etc Bloc de operare Partea procesorului care efectuează operații aritmetice (numită și unitate logică aritmetică ALU) Bloc de control Componentă procesor care comandă unitatea de operare, memoria și dispozitivele I/O conform instrucțiunilor programului lumina cache Memorie mică și rapidă, care acționează ca un buffer pentru o memorie mai lentă și mai mare Capitolul Abstracții și tehnologii computerizate Orez Interne ale microprocesorului AMD Barcelona O micrografie a procesorului este situată pe reconciliere, iar principalele sale blocuri sunt prezentate mai jos Acest cip are patru procesoare, sau -core Microprocesorul unui laptop cu fig Ce se ascunde sub capacul carcasei computerului folosind o tehnologie de memorie diferită - memoria statică cu acces aleatoriu (SRAM), adică memoria statică cu acces aleator SRAM are o viteză mai mare, dar o densitate mai mică a elementelor și este mai scumpă decât DRAM (vezi capitolul ) În descrierea atât a software-ului, cât și a hardware-ului, s-ar putea observa o abordare comună: pe măsură ce mergi mai adânc în hardware sau software, mai multe informații sunt dezvăluite, iar detaliile nivelurilor inferioare sunt ascunse pentru a prezenta un model mai simplu pentru nivelurile superioare Utilizarea acestor straturi, sau abstracții, este o tehnică fundamentală în dezvoltarea unor sisteme informatice foarte complexe Una dintre cele mai importante abstracții este interfața dintre hardware și software-ul de cel mai jos nivel Datorită importanței sale, are o denumire specială: arhitectură set de instrucțiuni, sau pur și simplu arhitectură computer Arhitectura setului de instrucțiuni conține totul ce trebuie sa stii programator pentru a crea programe binare în limbaj mașină, inclusiv instrucțiuni, caracteristicile dispozitivului I/O etc De obicei, sistemul de operare va ascunde în modulele sale detaliile I/O, alocarea memoriei și alte funcții de sistem de nivel scăzut, astfel încât aplicația programatorii trebuie să se îngrijoreze că merită Combinația dintre setul de instrucțiuni principal și interfața sistemului de operare se numește interfață binară a aplicației (interfață binară a aplicației ABI) Arhitectura setului de instrucțiuni permite proiectanților de calculatoare să vorbească despre funcții independent de hardware-ul care le execută De exemplu, puteți vorbi despre funcțiile unui ceas digital (stocarea timpului, afișarea timpului, setarea unei alarme) indiferent de hardware-ul acestuia (rezonator cuarț, LCD, butoane din plastic) Proiectanții de calculatoare tratează arhitectura ca fiind separată de implementarea ei, urmând aceleași reguli: o implementare este hardware care satisface cerințele abstractizării arhitecturale Aceste idei ne aduc la o altă subsecțiune numită „Cele mai importante” Memorie statică aleatorie totală* (SRAM), construită de asemenea pe un cip dar având performanțe mai mari și densitate mai mică a elementelor în comparație cu DRAM Abstracția Un model care oferă o perspectivă asupra caracteristicilor de nivel scăzut temporar invizibile ale sistemelor informatice și facilitează proiectarea sistemelor complexe Arhitectura setului de instrucțiuni Denumită și simplu arhitectură O interfață abstractă între hardware și software de nivel scăzut, care satisface toate nevoile de informații pentru scrierea de programe funcționale în limbaj mașină, inclusiv instrucțiuni, registre, acces la memorie I/O și așa mai departe d Interfață binară a aplicației (ABI) Partea utilizator a setului de instrucțiuni plus interfețele sistemului de operare utilizate de programatorii de aplicații Definește un standard pentru asigurarea portabilității binare între computere Implementarea Echipamente care îndeplinesc cerințele abstractizării arhitecturale Capitolul Abstracții și tehnologii computerizate Cel mai important Atât hardware-ul cât și software-ul sunt alcătuite din niveluri ierarhice, iar fiecare nivel ascunde detalii de la nivelul superior Acest principiu de abstractizare este o modalitate de a face față complexității sistemelor informatice, cum ar fi pentru dezvoltatorii de hardware și dezvoltatorii de software Interfața cheie dintre straturile de abstractizare este arhitectura setului de instrucțiuni, interfața dintre hardware și software de nivel scăzut Această interfață abstractă permite multor implementări cu costuri și performanțe diferite să funcționeze cu același software Un loc sigur pentru a vă stoca datele Am înțeles deja cum sunt introduse, folosite pentru calcule și afișate datele, dar dacă se pierde puterea computerului, toate se vor pierde, deoarece memoria din interiorul computerului este volatilă, adică atunci când nu există energie, aceasta Memorie eficientă din punct de vedere energetic Un dispozitiv de stocare, cum ar fi DRAM, care reține datele doar atunci când primește energie Memorie non volatila Un tip de memorie care reține datele chiar și atunci când nu există o sursă de alimentare Folosită pentru a stoca programe între sesiunile de lucru Memoria nevolatilă include, de exemplu, discuri magnetice memorie secundară Memoria nevolatilă folosită pentru stocarea programelor și datelor între sesiuni La computerele moderne, aceasta este de obicei reprezentată de discuri magnetice disc magnetic Denumit și hard disk O formă de stocare secundară nevolatilă Un hard disk constă din discuri rotative acoperite cu material de înregistrare magnetic Memorie flash Memoria cu semiconductor Boles nevolatilă este mai ieftină și mai lentă decât DRAM, dar mai scumpă și mai rapidă decât discurile magnetice greutatea „uită” Spre deosebire de ea DVD-ul nu „uită*” filmul pe care îl conține atunci când opriți DVD playerul, datorită tehnologiei sale de memorie nevolatilă Pentru a distinge între memoria volatilă, care este utilizată pentru a stoca date și programe în timpul funcționării, și memoria nevolatilă, care este folosită pentru a stoca date și programe între sesiunile de lucru, termenul de memorie principală sau primară este folosit pentru prima dintre ele , iar pentru a doua memorie secundară memoria DRAM (memoria principală) a dominat din , iar discurile magnetice (memoria secundară) din Principalul dispozitiv de stocare a energiei utilizat pe toate computerele server și stațiile de lucru este hard disk-ul Memoria flash, o memorie solidă nevolatilă, este folosită în locul discurilor în dispozitivele mobile, cum ar fi telefoanele mobile, și înlocuiește din ce în ce mai mult discurile în playerele muzicale și chiar în laptopuri Pe fig Figura arată că un hard disk magnetic constă dintr-un set de discuri care se rotesc pe o axă comună la viteze de la la rpm Discuri metalice Ce se ascunde sub capacul carcasei computerului ambele fețe sunt acoperite cu material de înregistrare magnetic, similar cu materialul folosit pe casetele cu bandă sau casetele video Există un element mobil pentru citirea și scrierea informațiilor pe hard disk care conține o bobină electromagnetică mică numită cap de citire/scriere care se află direct deasupra suprafeței Întreaga unitate este în mod constant într-o stare închisă, ceea ce vă permite să monitorizați starea mediului său intern și ce la rândul său, permite ca capetele discului să fie mai aproape de suprafața discului Orez Hard disk afișând discuri și capete de citire-scriere Diametrul hard disk-urilor astăzi variază de peste trei ori Performanță^ Runtime to Runtime Runtime* > RuntimeF Adică timpul de execuție pe computerul Y este mai mare decât pe computerul X dacă X este mai rapid decât Y Când discutăm despre designul computerelor, deseori dorim să relaționăm performanța a două computere diferite cu un indicator cantitativ Capitolul Abstracții și tehnologii computerizate vom folosi expresia „X x ori mai rapid decât Y”, sau vom folosi expresia echivalentă „Viteza lui X este de l ori viteza lui Y”, ceea ce înseamnă: Performanţă -= p Performanţă , Dacă X este de n ori mai rapid decât Y, atunci timpul de execuție pe Y este de n ori mai rapid decât pe X: Performanțăѵ Timp de execuție ■ L = l Performanță Timp de execuție e Exercitiul Performanță relativă Dacă computerul A rulează un program în secunde și computerul B rulează același program în secunde, cu cât este mai rapid A decât B? Răspuns Știm că Avi este de ori mai rapid decât B dacă: Performanță Runtime i „ ■ „' • P Productivitate Execuție cronometrată Deci raportul de performanță este același iar A este prin urmare de , ori mai rapid decât B În exercițiul anterior, mai putem spune că computerul B este de , ori mai lent decât computerul A Pentru că performanţă - = , Performanţă înseamnă că Performanţă - = Performanță Pentru a simplifica terminologia, atunci când comparăm computerele cantitativ, vom folosi de obicei termenul mai rapid decât Deoarece performanța și timpul de rulare sunt reciproce, creșterea performanței necesită reducerea timpului de rulare Pentru a evita eventualele confuzii între termenii creștere și scădere, vom spune de obicei Performanță „îmbunătățirea performanței” sau „îmbunătățirea timpului de rulare”, adică „creșterea performanței” și „scăderea duratei de rulare” Evaluarea performanței Criteriul de evaluare a performanței computerului este |>name:computer a face aceeași cantitate de muncă în mai puțin timp este mai rapid Timpul de execuție al unui program este măsurat în secunde petrecute pentru execuția sa Dar timpul poate fi determinat în alte moduri, în funcție de ceea ce se ține cont Cele mai simple sunt timpul de execuție a procesului, timpul de răspuns sau timpul total scurs Aceste concepte înseamnă timpul total petrecut pe o sarcină, inclusiv accesările la disc, accesele la memorie funcționarea dispozitivelor de intrare și ieșire, costurile asociate cu funcționarea sistemului de operare, adică tot ceea ce se petrece timpul Dar computerele funcționează adesea în modul de partajare a timpului, iar procesorul poate lucra la executarea mai multor programe simultan În astfel de cazuri, sistemul se poate strădui să nu minimizeze timpul total petrecut pentru execuția unui program, ci să optimizeze debitul Prin urmare, este adesea necesar să trasăm o linie între timpul total scurs și timpul CPU în interesul nostru Timpul de execuție a CPU, sau pur și simplu timpul CPU, care ia în considerare această diferență, este timpul pe care CPU-ul l-a petrecut lucrând la această sarcină , include timpul petrecut în așteptarea operațiunilor I/O sau timpul petrecut executând alte programe (Dar rețineți că timpul de răspuns așteptat de utilizator va fi timpul total scurs, nu timpul CPU ) Timpul CPU petrecut de sistemul de operare executând sarcini în beneficiul programului, numit timp CPU al sistemului Este destul de dificil să se traseze o linie clară între timpul procesorului sistemului și utilizator, deoarece este adesea dificil să atribuiți activitatea sistemului de operare unuia sau altuia program de utilizator, dificultățile sunt cauzate și de caracteristicile funcționale ale diferitelor sisteme de operare Pentru a fi consecvenți, vom păstra distincția între performanță bazată pe timpul total scurs și performanța bazată pe timp TIMP DE EXECUTARE CPU Denumit și timp CPU (CPU t>me) Timpul efectiv petrecut de CPU pentru a efectua o anumită sarcină Timp CPU utilizator (timp CPU ueer) Timpul CPU petrecut cu programul în sine Timp CPU de sistem (timpul CPU de sistem) Timpul CPU petrecut de sistemul de operare pentru îndeplinirea sarcinilor asociate cu execuția programului Capitolul Abstracții și tehnologii computerizate executarea sarcinilor de către CPU Termenul de performanță a sistemului va fi folosit pentru a se referi la timpul total scurs pe un sistem descărcat iar termenul de performanță CPU va fi folosit pentru a se referi la timpul CPU al utilizatorului În acest capitol, accentul se va pune pe performanța procesorului, deși raționamentul nostru în acest sens din ce este alcătuită performanța se poate referi fie la estimări ale timpului total scurs, fie la estimări ale timpului CPU ,- **■ *•*'*■ * * Înțelegerea performanței programului Pentru diferite aplicații, diferite aspecte ale performanței sistemului informatic joacă un rol deosebit de important Multe aplicații, mai ales acelea care rulează pe servere depind în mare măsură de performanța dispozitivelor I/O, care, la rândul său, depinde atât de hardware, cât și de software Ceea ce interesează aici este timpul total scurs, determinat folosind un ceas convențional În unele condiții, utilizatorul poate fi interesat de debitul, timpul de răspuns sau o combinație complexă a celor două (de exemplu, combinația de debit maxim cu cel mai slab timp de răspuns) Pentru a îmbunătăți performanța programului, trebuie să definiți clar valoarea indicatorului de performanță și apoi să începeți să căutați posibile blocaje Următoarele capitole vor descrie cum să găsiți blocajele și să îmbunătățiți performanța în diferite părți ale sistemului În timp ce noi, ca utilizatori de computere, suntem interesați de timp, este convenabil atunci când examinăm componentele computerului să ne gândim la performanță în ceea ce privește alte criterii de evaluare În special, designerii de computere pot analiza un computer folosind o măsurătoare care descrie cât de repede hardware-ul poate îndeplini funcțiile de bază Aproape toate computerele folosesc un generator de ceas pentru a determina când au loc evenimente Aceste intervale de timp discrete sunt numite cicluri de ceas (sau cicluri de ceas, intervale de ceas, semnale de ceas, Ciclu de ceas (ceas susiya) Denumit și ciclu de ceas (Clock), ciclu de ceas al sistemului (ceas tKk) interval de ceas (perioada de ceas), semnal de ceas (ceas), ciclu (sysie) Acesta este timpul unui interval de ceas, de obicei legat de ceasul procesorului, care lucrează cu o frecventa constanta Interval de ceas Durata fiecărui ciclu de ceas mi) Constructorii se referă la durata intervalului de ceas și la timpul de finalizare a ciclului de ceas (de exemplu, de picosecunde sau ps) și ca frecvență de ceas (de exemplu, gigaherți sau GHz), care este reciproca ciclului de ceas În următoarea subsecțiune, vom vorbi despre relația dintre ciclul de ceas utilizat de proiectantul hardware al computerului și secundele utilizate de utilizator Productivitate Autotestare Să presupunem că știm că o aplicație care utilizează atât desktopul client, cât și serverul la distanță este limitată de performanța rețelei Spuneți-mi, ce se întâmplă atunci când îmbunătățiți numai debitul Și când îmbunătățiți atât timpul de răspuns, cât și debitul? Sau nu există nicio schimbare? A fost adăugată o altă legătură de rețea între client și server, crescând debitul general al rețelei și reducând latența accesului la rețea (deoarece acum există două legături) Calitatea software-ului de sistem a fost îmbunătățită, datorită căreia întârzierea liniilor de rețea a fost redusă, dar debitul rețelei nu a crescut Memoria RAM crescută a computerului Computerul C este cu patru pata mai rapid decât Computerul B, care rulează o anumită aplicație în de secunde Cât timp va dura pentru a rula aceeași aplicație pe mașina C? Performanța procesorului și factorii săi Utilizatorii și dezvoltatorii evaluează adesea performanța pe baza unor criterii diferite Dacă putem corela aceste criterii diferite, putem determina impactul modificărilor de design asupra performanței în ceea ce privește utilizatorul Deoarece ne uităm doar la performanța procesorului în acest moment, principalul criteriu de performanță este timpul de execuție a sarcinii CPU Principalii indicatori ai timpului CPU (numărul de cicluri de ceas și timpul de ciclu al generatorului de ceas) sunt legați printr-o formulă simplă: Timp de execuție Număr de cicluri de ceas Timp de ciclu program central = cicluri CPU * ceas procesor cheltuit pe programul generator Și într-o altă variație, deoarece frecvența ceasului și timpul ciclului ceasului sunt reciproce: Timp de execuție Numărul de cicluri de ceas al procesorului, programe de către centrală - cheltuite pe program de către procesor Frecvența ceasului Această formulă arată clar că designerul hardware poate îmbunătăți performanța prin reducerea numărului de cicluri de ceas petrecute în program sau prin scurtarea timpului ciclului În capitolele următoare, se va arăta că proiectantul se confruntă adesea cu un compromis între numărul de cicluri de ceas necesare unui program și durata fiecărui ciclu Capitolul Abstracții și tehnologii computerizate ciclu Multe tehnologii care reduc numărul de cicluri de ceas pot crește și durata ciclului de ceas Exercitiul Creșterea productivității Programul care ne interesează rulează pe computerul A, care are o frecvență de ceas de GHz timp de IO secunde Încercăm să ajutăm un designer de computere să construiască computerul B care rulează acest program în secunde Acest proiectant a stabilit că o creștere corespunzătoare a vitezei de ceas este acceptabilă, dar această creștere va afecta restul designului procesorului și computerul B va avea nevoie de , ori mai multe cicluri de ceas pentru a rula un program decât computerul A Ce viteză de ceas ar trebui computerul comanda designerului? Răspuns Mai întâi, să determinăm numărul de cicluri necesare pentru programul de pe computerul A: Numărul de cicluri de ceas al procesorului Timpul procesorului unsprezece Frecvența ceasului Numărul de cicluri de ceas al procesorului secunde " • x cicluri pe secundă Cicluri de ceas al procesorului - secunde x x * cicluri pe secundă - - x * cicluri Timpul CPU pentru computerul B poate fi găsit folosind următoarea ecuație: , x x cicluri de ceas al procesorului Timp CPU D frecvența ceasului Frecvența ceasului intră , x x IO cicluri Frecvența ceasului ■ -= , * x cicluri pe secundă - „ secunde - x s cicluri pe secundă - GHz Pentru a rula un program în secunde, computerul B trebuie să aibă o viteză de două ori mai mare decât computerul A Ecuațiile de performanță prezentate mai sus nu țin cont de numărul de instrucțiuni necesare pentru a executa programe (Instrucțiunile care alcătuiesc un program sunt discutate în capitolul următor ) Dar, deoarece compilatorul a generat un număr foarte specific de instrucțiuni care sunt similare cu execuția, iar computerul trebuie să execute instrucțiunile pentru a urma programul, timpul de execuție trebuie depind de numărul de instrucțiuni din program Reprezentarea într-un singur sens este că este egal cu numărul de instrucțiuni executate înmulțit cu timpul mediu Performanță executarea unei singure instrucțiuni Prin urmare, numărul de cicluri de ceas necesar unui program poate fi scris sub următoarea formulă: Cantitate Cantitate Cantitate medie cicluri de ceas - instrucțiuni x cicluri de ceas procesor pentru program pe instrucțiune Pentru termenul număr de cicluri de ceas per instrucțiune, adică numărul mediu de cicluri de ceas necesar pentru a executa fiecare instrucțiune este adesea folosită abrevierea CPI (cicluri de ceas per instrucțiune) Pentru că instrucțiuni diferite, în funcție de ceea ce fac exact, necesită o perioadă diferită de timp CPI este o medie a tuturor instrucțiunilor executate într-un program CPI oferă singura modalitate de a compara două implementări diferite ale aceleiași arhitecturi de set de instrucțiuni, deoarece numărul de instrucțiuni executate într-un program va fi, desigur, același la fel Numărul de cicluri de ceas per instrucțiune (CPI) Numărul mediu de cicluri de ceas per instrucțiune pentru un program sau o bucată Exercitiul Utilizarea ecuației um productive Să presupunem că există două implementări ale aceleiași arhitecturi de set de instrucțiuni Calculatorul A are un ciclu de ceas de ps, un program are o valoare CPI de , și computerul B are un ciclu de ceas de ps valoarea CPI pentru același program este , Ce computer va fi mai rapid pentru acest program și cu cât? Răspuns Știm că orice computer execută același număr de instrucțiuni de fiecare dată când programul este rulat, să notăm acest număr cu litera Mai întâi, determinăm numărul de cicluri de ceas al procesorului pentru fiecare computer: Numărul de cicluri de ceas ale procesorului, - / * Numărul de cicluri de ceas ale procesorului, - / « Acum putem calcula timpul CPU pentru fiecare computer: Timp procesor, - numărul de cicluri de ceas ale procesorului, k x durata ciclului ceasului - / * , * ps - x Іps Si la fel pentru B: Timp procesor, x | m , x ps - / ps Este clar că computerul A este mai rapid Cât de mult mai rapid vă permite să determinați raportul indicatorilor de timp de execuție: Arbitrăria procesorului ( Timp de execuție^ fps ( , Performanța procesorului în timpul de execuție în x/ns Putem concluziona că pentru acest program computerul A este de , ori mai rapid decât computerul B Capitolul Abstracții și tehnologii computerizate Ecuația clasică de performanță a procesorului Acum putem descrie ecuația de bază a performanței în termeni de număr de instrucțiuni (numărul de instrucțiuni executate per program), CPI și durata ciclului de ceas: Timp procesor - Număr de instrucțiuni * CPI x x Timp de ciclu sau, deoarece frecvența de ceas este inversul duratei ciclului de ceas timp CPU - Număr de instrucțiuni x IPC Frecvența ceasului Aceste formule sunt deosebit de convenabile prin faptul că folosesc trei factori cheie care afectează puterea Putem folosi aceste formule pentru a compara două implementări diferite sau Numărul de instrucțiuni Numărul de instrucțiuni executate de L™ oi tsu Seimens Xeon E O / Hz W VU % W % W % Capitolul Abstracții și tehnologii computerizate O alternativă la timp este MIPS (milioane de instrucțiuni pe secundă) Pentru un singur program, MIPS se calculează simplu: Număr de instrucțiuni Timp de execuție x IO Deoarece MIPS este o măsură a execuției instrucțiunilor, măsoară performanța în termeni de reciprocă a timpului de execuție: cu cât computerul este mai rapid, cu atât M PS-ul său este mai mare Acest indicator este bun că este ușor de înțeles, iar computerele mai rapide sunt de așteptat să aibă performanțe mai mari, în concordanță cu intuițiile noastre Există trei probleme când se utilizează MIPS ca punct de referință atunci când se compară computerele MIPS este definit ca o măsură a executării instrucțiunilor, dar caracteristicile instrucțiunilor în sine nu sunt luate în considerare folosind MIPS este imposibil să comparați computerele cu seturi diferite de instrucțiuni, deoarece numărul de instrucțiuni va fi evident diferit În al doilea rând, valoarea MIPS pe același computer variază de la program la program, astfel încât computerul nu poate avea întotdeauna același indicator M PS De exemplu, dacă înlocuiți formula timpului de execuție pentru calcularea acesteia, vom vedea cum MIPS depinde de frecvența de ceas și de CPI: V/P - Număr de instrucțiuni Frecvența ceasului Număr de instrucțiuni x CPI * CPI x IO Frecvența ceasului Amintiți-vă că pe Opteron X , la executarea sarcinii de testare SPEC , valoarea CPI crește de ori Și, în sfârșit, și cel mai important, dacă noul program rulează mai multe instrucțiuni, dar fiecare dintre ele se execută mai repede, MIPS se poate schimba indiferent de modificarea performanței! Autotestare Estimarea computerului A Calculatorul B Numărul de instrucțiuni miliarde miliarde Frecvența ceasului GHz GHz IPC și Milioane de instrucțiuni pe secundă (MIPS) O măsură a cât de repede se execută un program pe baza numărului de milioane de instrucțiuni, MIPS este calculat ca numărul de instrucțiuni împărțit la timpul de execuție înmulțit cu * Ce computer are un scor MIPS astăzi? Ce computer este mai rapid? Comentarii finale Comentarii finale ENIAC conține de tuburi vid și cântărește de tone, iar în viitor, computerele pot consta dintr-o mie de tuburi vid și cântăresc doar o tonă și jumătate Popular Mechanics, martie mmia Deși este dificil de prezis cu exactitate unde va fi raportul cost-performanță al computerelor din viitor, este sigur să spunem că acestea vor fi mai bune decât cele de astăzi Pentru a avea succes, designerii și programatorii de computere trebuie să înțeleagă o gamă largă de probleme Designerii de hardware, ca și dezvoltatorii de software, creează sisteme informatice în niveluri ierarhice, unde fiecare nivel inferior își ascunde secretele de la nivelul superior Acest principiu de abstractizare stă la baza sistemelor informatice moderne, dar asta nu înseamnă că proiectanții se pot limita la a cunoaște unul - singura abstractizare Poate cel mai important exemplu de abstractizare ar putea fi interfața dintre hardware și software de nivel scăzut, numită arhitectura setului de instrucțiuni Menținerea coerenței arhitecturii setului de instrucțiuni va permite multe implementări ale acestei arhitecturi eventual diferite unele de altele ca cost și performanță, pentru a executa aceleași programe Dezavantajul acestei abordări este că este posibil ca arhitectura să nu permită inovații care necesită modificări de interfață Există o metodă dovedită pentru determinarea și raportarea informațiilor de performanță care este măsurată prin timpul de execuție al programelor reale Acest timp de livrare depinde de alte valori importante și poate fi obținut folosind următoarea formulă; Număr de secunde per program - Număr de instrucțiuni per program * Număr de cicluri de ceas per instrucțiune * Număr de secunde per ciclu de ceas Această formulă și componentele sale vor fi folosite de mai multe ori Dar rețineți că aceste metrici singure nu măsoară performanța: doar produsul lor, care este egal cu timpul de execuție, poate servi ca un etalon de încredere pentru performanță Cel mai important Singura măsură adevărată și perfectă a performanței este timpul de rulare Au fost propuse și solicitate multe alte metrici, perfecțiunea unora dintre ele a fost pusă la îndoială încă de la început pentru că nu reflectau timpul de execuție, utilizarea altora, potrivite doar în condiții foarte specifice, a fost extinsă și transferată dincolo de aceste condiții sau efectuate fără clarificări suplimentare care să permită aplicarea acestora Capitolul Abstracții și tehnologii computerizate Baza tehnologiei pentru crearea procesoarelor moderne este utilizarea siliciului La fel de importantă în studierea tehnologiei de creare a circuitelor integrate este înțelegerea ritmului așteptat al schimbării tehnologice că utilizarea siliciului asigură progresul rapid al echipamentelor îmbunătățirea raportului preț-performanță se realizează prin utilizarea unor noi principii organizaționale în calculatoare Cele două principii principale sunt utilizarea calculului paralel folosind mai multe procesoare și localizarea accesului la nivelurile structurii de memorie ierarhică folosind memoria cache Pe lângă suprafața plachetelor, consumul de energie a devenit cea mai importantă măsurătoare în dezvoltarea microprocesoarelor Dorința de a opri creșterea consumului de energie și de a crește productivitatea a forțat producătorii de echipamente să treacă la fabricarea de microprocesoare multi-core și asta la rândul lor, a forțat producătorii de software să treacă la crearea de programe pentru echipamente paralele Designul computerelor a fost întotdeauna evaluat în termeni de cost pentru performanță, dar au fost luați în considerare și alți factori importanți, cum ar fi consumul de energie, fiabilitatea, costul de operare și scalabilitatea, accentul este pus pe un echilibru acceptabil pentru o anumită piață Ghid pentru această carte Abstracțiile propuse se bazează pe cinci componente ale unui computer: o unitate de operare, o unitate de control, o unitate de memorie, dispozitive de intrare și ieșire (vezi Figura ) Aceste cinci componente servesc, de asemenea, ca bază structurală pentru toate celelalte capitole din această carte: ♦ bloc operațional: capitolele , și ; ♦ unitate de control: capitolul ; ♦ memorie: capitolul ; ♦ dispozitiv de intrare: capitolul ; ♦ dispozitiv de ieșire; capitolul După cum sa menționat anterior, capitolul descrie modul în care procesoarele utilizează calculul paralel latent, iar capitolul analizează un adevărat microprocesor paralel multi-core Capitolul analizează modul în care diferitele componente ale memoriei utilizează ierarhia de calcul Capitolul descrie setul de instrucțiuni — interfața dintre compilatoare și computer — și evidențiază rolul compilatorilor și al limbajelor de programare în setul de instrucțiuni Capitolul discută modul în care computerele procesează datele aritmetice Exercițiul Exerciții Contribuție de Javier Brugueira Majoritatea exercițiilor din această publicație sunt structurate pentru a oferi descrieri calitative, cu parametri cantitativi alternativi indicați în tabelul auxiliar, acești parametri sunt necesari pentru rezolvarea problemelor conținute în exercițiu Când rezolvați probleme individuale, puteți utiliza orice număr de parametri, câți parametri trebuie să utilizați pentru a rezolva o anumită problemă depinde de dvs De exemplu, s-ar putea spune: „Rezolvați problema folosind parametrii rândului A al tabelului” Dacă se dorește, instructorii pot modifica aceste exerciții pentru a crea soluții noi prin înlocuirea parametrilor dați cu propriile lor valori originale Diferitele capitole folosesc un număr diferit de exerciții cantitative, care depinde în mare măsură de subiectul luat în considerare Acolo unde nu se poate aplica o abordare cantitativă, se folosesc exerciții mai simple Evaluarea timpului relativ al exercițiilor este afișată între paranteze drepte după numărul fiecărui exercițiu În medie, un exercițiu evaluat [ ] ar trebui să dureze de două ori mai mult decât un exercițiu evaluat [ ] Secțiuni ale textului care trebuie studiate înainte de a încerca exercițiul va fi dat între paranteze unghiulare: de exemplu, înseamnă că studierea secțiunii „Ce se ascunde sub carcasa computerului” va ajuta la rezolvarea acestui exercițiu Exercițiul Găsiți cuvântul sau expresia din lista furnizată care se potrivește cel mai bine cu scriptura în problemele de mai jos Utilizați numerele din stânga cuvântului când răspundeți Fiecare dintre răspunsuri ar trebui folosit o singură dată ' lumi virtuale sistem de operare ' computere desktop compilator servere pe biți cele mai ieftine servere instrucțiuni supercalculatoare limbaj de asamblare terabytes limbaj mașină petaocteți s B centre de prelucrare chiar de asamblare calculatoare încorporate limbaj de nivel înalt Yu procesor multi-core de programe de sistem VHOL de programe de aplicare RAM COBOL CPU Fortran Capitolul I Abstracţii şi tehnologii computerizate [ J Calculatoare utilizate pentru sarcini serioase, accesate de obicei printr-o rețea ] IO* sau MB [ | Calculatoare care constau din câteva sute sau mii de procesoare și terabytes de memorie ( | Astăzi, acest domeniu aparține domeniului science fiction-ului ( ) Un tip de memorie numit memorie cu acces aleatoriu | | Partea unui computer numită unitatea centrală de procesare | | Mii de procesoare formând un cluster mare | | Un microprocesor care conține mai multe procesoare pe același cip | | Un computer desktop fără ecran sau tastatură, accesat de obicei printr-o rețea [ Cea mai comună clasă de calculatoare în prezent care rulează o aplicație sau un set de aplicații conexe C | Limbajul special folosit pentru a descrie componentele hardware [ ] Un computer personal care oferă performanțe bune unui utilizator individual la un cost moderat [ | Un program care traduce instrucțiuni de limbaj de nivel înalt în instrucțiuni de limbaj de asamblare [ | Un program care traduce instrucțiuni de caractere în instrucțiuni binare ( ] Un limbaj de nivel înalt pentru procesarea informațiilor de afaceri [ ] Limbajul cu cifre binare prietenos cu procesorul [ ] Comenzi pe care procesorul le poate înțelege [ ) Un limbaj de nivel înalt pentru calculul științific [ ] Reprezentarea cu caractere a instrucțiunilor mașinii ] Interfață între programul utilizatorului și hardware oferind multe servicii și funcții de control diferite [ ] Software sau programe dezvoltate de utilizatori | ] Cifră binară (cu valoarea sau ) [ ] Stratul software (sistem de operare și compilatoare) care se află între aplicația software și hardware { ] Un limbaj de nivel înalt folosit pentru a scrie aplicații și software de sistem ( ] Un limbaj portabil format din cuvinte și expresii algebrice care trebuie traduse în limbaj de asamblare înainte de a rula pe un computer ( | ” sau *> octeți Exercițiul Exercițiul ( ] Care ar trebui să fie dimensiunea (în octeți) a memoriei tampon pentru un afișaj color care utilizează biți pentru fiecare dintre culorile primare (roșu, verde, albastru) per pixel și are o rezoluție a ecranului de * pixeli? [ ] Dacă un computer are GB de RAM și presupunând că nu conține alte informații, câte cadre poate conține? | | Dacă un computer conectat la o rețea Ethernet de gigabit pe secundă trebuie să transfere un fișier de KB, cât timp va dura? ( | Presupunând că memoria cache este de zece ori mai rapidă decât DRAM, care este de de ori mai rapidă decât memoria discului magnetic, iar memoria flash este de de ori mai rapidă decât memoria discului Pe un anumit disc, cât timp va dura până citiți un fișier din DRAM din LISK și SFLASH Dacă este nevoie de µs pentru a citi acest fișier din cache? Exercițiul Să presupunem că trei procesoare diferite: P , P și P - execută același set de instrucțiuni, având în același timp frecvențele de ceas și indicatorii CPI indicați în tabel: Frecvența ceasului procesorului CPI R GHz , R , GHz , RZ ZGHz , [ Care procesor va avea cea mai mare performanță? [ ] Fiecare dintre procesoare execută programul în secunde determinați numărul de cicluri și numărul de instrucțiuni necesare pentru acest nm ( ) Încercăm să reducem timpul cu %, dar aceasta implică o creștere cu % a IPC Ce viteză de ceas este necesară pentru a obține o astfel de reducere a timpului? Pentru sarcinile de mai jos, utilizați informațiile din tabel: Viteza ceasului procesorului Hm o Timpul instrucțiunilor „PI GHz * ” s GHz x e jus RZ ZGHz X ' s Capitolul Abstracții și tehnologii computerizate t ( | Determinați frecvența de ceas a procesorului P , care va compara indicatorii timpului de funcționare cu cei ai procesorului P [ Determinați numărul de instrucțiuni pentru procesorul P care este timpul său pentru procesor RZ Exercițiul Luați în considerare două implementări diferite ale aceleiași arhitecturi de set de instrucțiuni Există patru clase de instrucțiuni: A, B C și D Vitezele de ceas și CPI ale fiecărei implementări sunt prezentate în tabel: Frecvența ceasului CPI clasa A CPI clasa B CPI clasa C CPI clasa D Р , GHz R GHz ] Un program dat cu * instrucțiuni este împărțit în clase în următoarele proporții: % din instrucțiuni aparțin clasei A % - clasei B * o - clasei C și % la clasa D, care implementare este mai rapidă? [ ] Care va fi IPC global pentru fiecare implementare? ] Determinați numărul de cicluri de ceas necesare pentru ambele cazuri Următorul tabel arată numărul de instrucțiuni utilizate în program: Salvare aritmetică Încărcare ■■ Total " [ ] Presupunând că instrucțiunea de aritmetică durează un ciclu, instrucțiunea de încărcare și stocare durează cinci cicluri, iar instrucțiunea de ramificare ia coada ciclului, care ar fi timpul de execuție a programului pe un procesor de GHz ? [ Determinați CPI pentru acest program [ ] Care va fi accelerarea programului și a IPC-ului daca numarul instructiunilor de incarcare poate fi redus la doi ral? Exercițiul Luați în considerare două implementări diferite P și P ale aceluiași set de instrucțiuni Instrucțiunile din set aparțin uneia dintre cele cinci clase (A B C D) și E) Viteza de ceas a fiecărei implementări și CPI-ul acesteia pentru fiecare clasă sunt prezentate în tabel: Exercițiul Frecvența ceasului CPI clasa A CPI clasa B CPI clasa C CPI CLASS D CPI clasa E a РІ , GHz P , GHz b РІ , GHz Р , GHz | Să presupunem că cea mai mare performanță este definită ca cea mai mare viteză cu care un computer poate executa orice secvență de instrucțiuni Care este cea mai mare performanță a lui Pi și P exprimat în numărul de instrucțiuni executate pe secundă? | | Dacă numărul de instrucțiuni executate de un anumit program este distribuit uniform între clasele de instrucțiuni, cu excepția clasei A, ale cărei instrucțiuni apar de două ori mai des, atunci care computer rulează mai repede? Cu cat mai repede? [ | Dacă numărul de instrucțiuni executate de un anumit program este distribuit uniform între clasele de instrucțiuni, cu excepția clasei E, ale cărei instrucțiuni apar de două ori mai des, atunci care computer rulează mai repede? Cu cat mai repede? Următorul tabel arată distribuția instrucțiunilor pentru diferite programe Folosind aceste date, veți explora diferitele compromisuri asociate cu modificările aduse procesorului MIPS care afectează performanța Numărul de instrucțiuni Calculați încărcarea Salvați totalul ramurului ia Program Program | ] Să presupunem că calculele sunt efectuate într-un ciclu de ceas, instrucțiunile de încărcare și stocare necesită cicluri de ceas, iar ramificațiile sunt efectuate în cicluri de ceas Determinați timpul de execuție al fiecărui program pe un procesor MIPS de GHz [ | Să presupunem că calculele sunt efectuate într-un singur ciclu so- , instrucțiunile de încărcare și stocare necesită cicluri de ceas, iar ramificarea este efectuată în cicluri de ceas Determinați timpul de execuție al fiecărui program pe un procesor MIPS de GHz [ ] Să presupunem că calculele sunt efectuate într-un astfel de ciclu, instrucțiunile de încărcare și stocare necesită cicluri de ceas, v Au fost utilizate două compilatoare diferite pentru același program Tabelul de mai sus arată timpul de execuție a două programe obținute de la compilatoare diferite Determinați CPI mediu pentru fiecare program, presupunând un ciclu de ceas al procesorului de ns [ | Cu valorile CPI medii determinate în exercițiul , programele compilate rulează pe două procesoare diferite Dacă timpul de execuție pe cele două procesoare este același, cu cât este mai mare viteza de ceas a procesorului care rulează codul produs de compilatorul A în comparație cu viteza de ceas a procesorului care rulează codul emis de compilatorul B? ( | A fost dezvoltat un nou compilator care emite doar de milioane de instrucțiuni și are un CPI mediu de Care este accelerarea utilizării acestui nou compilator în comparație cu utilizarea compilatoarelor A sau B pe procesorul original de la exercițiul ? Luați în considerare două implementări diferite ale aceluiași set de instrucțiuni: P și P Există cinci clase de instrucțiuni în acest set (A, B C, D și E) Procesorul P are o viteză de ceas de GHz, iar procesorul P are o viteză de ceas de GHz Numărul mediu de cicluri pentru fiecare clasă de instrucțiuni pentru P și P este listat în tabel: Clasa CPI pe P CPI și P a A În S aproximativ E b A LA S D E B Exerciții [ ) Să presupunem că performanța maximă este definită ca cea mai mare viteză la care un computer poate executa orice secvență de instrucțiuni Care este cea mai mare performanță a PI și P , exprimată în instrucțiuni pe secundă? [ În exercițiul , dacă numărul de instrucțiuni executate într-un anumit program este distribuit uniform între clasele de instrucțiuni, cu excepția clasei A, ale cărei instrucțiuni sunt de două ori mai frecvente, cu cât este mai rapid P decât PI? | | La ce frecvență de ceas P are aceeași performanță precum şi PI pentru setul de instrucţiuni indicate în exerciţiul ? Exercițiul Tabelul arată creșterea vitezei de ceas și a consumului de energie a opt generații de procesoare Intel pe parcursul a de ani: Procesor Frecvența ceasului Consumul de energie ) , MHz , W ( ) MHz , W ( ) MHz , W Pentium ( ) MHz , W Pentium Pro ( ) MHz W Pentium (Mllamette ( ) GHz , W Pentium Prescott ( ) GHz atm Core KelsteM ( ) GHz W ( | Care este media metrică a rapoartelor de generare atât pentru viteza de ceas, cât și pentru consumul de energie? (Media geometrică este discutată în Secțiunea ) [ ] Care este cea mai semnificativă modificare relativă a vitezei de ceas și a consumului de energie între generații? [ | Cu cât este mai mare viteza de ceas și consumul de energie al celei mai recente generații de procesoare în comparație cu prima lor generație? Luați în considerare următoarele valori ale tensiunii de alimentare pentru fiecare generație Procesor Tensiune de alimentare ( )S ( ) ( ) Pentium ( ) Pentium Rto( ) Pentium YuatePe ( ) , Pentium Prescott ( ) Sote Ketsfield ( ) Capitolul Abstracții și tehnologii computerizate [ Determinați sarcina capacitivă medie, neglijând puterea statică [ ] Determinați cea mai mare modificare relativă a tensiunii de alimentare între generații | Determinați media geometrică a raporturilor tensiunilor de alimentare generaționale, începând cu procesorul Pentium Exercițiul Să presupunem că am dezvoltat noi versiuni ale procesorului cu următoarele caracteristici Versiune Frecvența ceasului Versiunea (Tc | Versiunea V GHz | | Cât de mult a scăzut sarcina capacitivă de la o versiune la alta dacă consumul de energie dinamică a fost redus cu %? [ ] Cât de mult a fost redus consumul de energie dinamică dacă sarcina capacitivă nu s-a modificat? [ ] Să presupunem că sarcina capacitivă a versiunii este de % din sarcina capacitivă a versiunii Determinați tensiunea de alimentare pentru versiunea dacă consumul de putere dinamic al versiunii este redus cu % față de cel al versiunii I Să presupunem că în industrie există tendințe în apariția unui proces tehnologic de nouă generație cu următoarele rapoarte de indicatori: H Capacitate Tensiune de alimentare Frecvența ceasului Zona L / • ' [ | De câte ori se va schimba consumul dinamic de energie? ( ] Scalați modificarea capacității pe unitate de suprafață | | Determinați procentul din puterea totală disipată atribuite consumului de energie statică [ ] Dacă consumul de energie statică depinde de curentul de scurgere, P - V * determină curentul de scurgere pentru fiecare tehnologie | ) Determinați raportul dintre consumul de energie statică și dinamică pentru fiecare tehnologie Acum luați în considerare disiparea dinamică a puterii a diferitelor versiuni ale unui procesor dat pentru trei tensiuni de alimentare diferite conform următorului tabel: , V , V , V a W W W b W W W [ ] Determinați consumul de putere statică pentru fiecare versiune cu o tensiune de alimentare de , V, utilizând un raport de putere statică/dinamică de , [ ] Determinați curentul de scurgere pentru fiecare versiune la o tensiune de alimentare de , V [ ] Determinați cea mai mare valoare a celor doi curenți de scurgere la tensiuni de alimentare de , V și , V, luând valoarea de , ca raport dintre consumul de energie static și dinamic Exercițiul Tabelul arată distribuția de instrucțiuni a unei aplicații date care rulează pe procesoare , , sau Folosind aceste date, veți investiga accelerarea aplicațiilor pe procesoare paralele: Procesoare Numărul de instrucțiuni per procesor CPi Aritmetica Salvat/Salvat Aritmul numelui Vyatvle* Ejagr soirai Ramificare ■ Ѳ Capitolul Abstracții și tehnologii computerizate Procesoare Numărul de instrucțiuni per procesor CPI Aritmetica Salvat/Salvat Aritmul de ramificare Încărcat/Salvat Vetel v-ii b voo voe c [ ] Tabelele de mai sus arată numărul de instrucțiuni necesare fiecărui procesor pentru a executa un program pe un dispozitiv multiprocesor cu , , sau procesoare Care este numărul total de instrucțiuni executate de fiecare procesor? Care este numărul total de instrucțiuni executate pe toate procesoarele? [ ] Utilizarea valorilor CPI afișat în partea dreaptă a tabelului, determinați timpul total de execuție pentru acest program pe , , și procesoare, presupunând că fiecare procesor este tactat la GHz [ ] Dacă CPI-ul pentru instrucțiunile aritmetice ar fi dublat, cum ar afecta asta timpul de execuție a programului pe , , sau procesoare? Următorul tabel arată numărul de instrucțiuni per nucleu de procesor pe procesorul meu ho-core, precum și CPI-ul mediu pentru executarea unui program pe , , sau nuclee Folosind aceste date, veți investiga accelerarea aplicației pe procesoare multi-core Nuclee per procesor Instrucțiuni per nucleu CPI mediu a , „ ”* , " * , " * , în , " " , b " * " " , " * , , " * , ] Să presupunem că frecvența ceasului este de GHz atunci care ar fi timpul de execuție a programului folosind , sau nuclee? ] Să presupunem că consumul de energie al unui nucleu de procesor poate fi descris prin următoarea ecuație: Alimentare „ Tensiune de alimentare MHz Exercițiul unde tensiunea procesorului este descrisă de următoarea ecuație; Tensiune de alimentare - - Frecvență + , , în care frecvența se măsoară în gigaherți Astfel, la GHz, tensiunea de alimentare va fi de , V Determinați consumul de energie atunci când rulați programul pe , și nuclee, presupunând că fiecare nucleu rulează la o frecvență de ceas de GHz În același mod, determinați consumul de energie atunci când rulați programul pe sau nuclee, presupunând că fiecare nucleu rulează la MHz [ ] Determinați costul de putere al executării programului pe , , și nuclee, presupunând că fiecare nucleu are o viteză de ceas de GHz și MHz Utilizați ecuația consumului de energie din exercițiul Exercițiul Următorul tabel oferă informații pentru diferite procesoare: Diametrul plăcilor per napolitană Defecte pe unitate de suprafață Costul pe napolitană a cm , defect a/cm b cm , defecte/cm [ ] Determinați rata randamentului [ ] Determinați costul unei plăci ( ] Determinați suprafața și randamentul plachetelor dacă numărul de plachete pe placă crește cu % și numărul de defecte pe unitate de suprafață crește cu % Să presupunem că, datorită îmbunătățirii tehnologiei de fabricare a dispozitivelor electronice, randamentul produselor s-a modificat, așa cum se arată în următorul tabel: T T Tz T Factorul de randament , , , , | | Determinați numărul de defecte pe unitate de suprafață pentru fiecare tehnologie cu o suprafață a plăcii de mm' [ ] Reprezentați grafic modificarea randamentului pe măsură ce se modifică numărul de defecte pe unitatea de suprafață Capitolul Abstracții și tehnologii computerizate Exercițiul Următorul tabel arată rezultatele rulării sarcinilor de testare SPEC O pe procesorul A MD Barcelona: Nume Număr de instrucțiuni > * Timp până la Timp (e) de referință a re Determinați CPI pentru o durată de ciclu de ceas de , ns [ Definiți SPECratio [ ] Găsiți media geometrică pentru aceste două probleme de control Următorul tabel prezintă date pentru încă două benchmark-uri: ■ Numele CPI Taggoaee SPECratio de frecvență sjeoQ , GHz , b omnelpp GHz [ J Determinați creșterea timpului CPU pentru o creștere cu % a numărului de instrucțiuni de sarcină de control care nu au avut niciun efect asupra CPI [ ] Determinați creșterea timpului CPU pentru o creștere cu % a numărului de instrucțiuni de sarcină de control și o creștere cu % a CPI [ | Determinați modificarea SPECratio pentru modificările descrise în exercițiul Exercițiul Să presupunem că dezvoltăm o nouă versiune a procesorului A MD Barcelona cu o viteză de ceas de GHz Am adăugat noi instrucțiuni la set, dar am redus numărul lor total cu % din valorile afișate pentru fiecare benchmark în Exercițiul Timpul de execuție rezultat este prezentat în tabel: Nume Timp de execuție (e) Timp de referință (e) SPECratio si perl b mei ] Definiți noi valori CPI [ ] În general, aceste valori CPI au devenit mai mari decât cele care au fost obţinute în exerciţiile anterioare pentru aceleaşi sarcini de control şef Exercițiul asta pentru că ceasurile folosite în ambele cazuri au fost de GHz și GHz Determinați dacă creșterea IPC este proporțională cu creșterea corespunzătoare a frecvenței de ceas Dacă nu, de ce nu? [ | Cât de mult a fost redus timpul CPU? Tabelul prezintă date pentru încă două benchmark-uri: Nume Timp de execuție (s) CPI Frecvența ceasului un sjeng , GHz omnetpp , GHz [ ] Determinați numărul de instrucțiuni dacă timpul de execuție este redus cu încă % fără modificarea CPI iar frecvența ceasului este de GHz [ Determinați viteza de ceas necesară pentru a reduce și mai mult timpul CPU cu % cu același număr de instrucțiuni și CPI neschimbat [ Determinați frecvența de ceas dacă CPI a scăzut cu % și timp CPU - cu % cu același număr de instrucțiuni Exercițiul Secțiunea a discutat eroarea utilizării unui subset de ecuații de performanță pentru a evalua performanța Pentru a ilustra acest punct, luați în considerare următoarele date despre execuția unei secvențe date de instrucțiuni de * pe diferite procesoare: Frecvența ceasului procesorului CPI R GHz , i ZGHz , | ] O concepție greșită comună este că computerul cu cea mai mare viteză de ceas este computerul cu cea mai mare performanță Verificați dacă această afirmație este adevărată pentru PI și P [ ] O altă concepție greșită este că „Essora, care execută cel mai mare număr de instrucțiuni, va avea nevoie ■ cel mai lung timp al procesorului Presupunând că procesorul PI emite o secvență de * instrucțiuni și că CPI-ul procesoarelor PI și P se modifică, determinați numărul de instrucțiuni pe care procesorul P le poate executa în același timp în care PI-ul procesorul trebuie să - supărat * instrucțiuni ] Una dintre concepțiile greșite comune este utilizarea ■ Baie MIPS (milioane de instrucțiuni pe secundă) pentru a compara performanța a două procesoare diferite și opinia că procesorul cu „scorul MIPS mai mare are performanțe mai bune Verificați dacă această afirmație este adevărată pentru procesoarele PI și P Capitolul Abstracții și tehnologii computerizate O altă măsură comună a performanței este MFLOPS (milioane de operații în virgulă mobilă pe secundă), definită ca MFLOPS ■ Operații în virgulă mobilă / Timp de execuție l * Dar acest indicator are aceleași dezavantaje ca MIPS Luați în considerare programele care rulează pe un procesor de GHz: Numărul de instrucțiuni Iistr • din linii CPI (egr / salvat) CPI (cu float, punct) CPI Și metru Evgr * / devorat Iistr cu plutire TOMKOY (■tel ) a * % % , , b " * % % % , , , [ ] Determinați MFLOPS pentru aceste programe [ ] Determinați scorurile M PS pentru aceste programe [ ] Determinați performanța afișată la executarea programelor și comparați-o cu MIPS și MFIOPS Exercițiul O altă concepție greșită menționată în secțiunea constă în așteptarea creșterii performanței generale a unui calculator prin îmbunătățirea doar a uneia dintre componentele acestuia Acest lucru se poate întâmpla, dar nu întotdeauna Luați în considerare un computer care rulează programe cu timpii de procesor indicați în tabel: Instrument cu plutire DOT Instrucțiuni întregi Încărcare/Storezi instrucțiuni Instructiuni de ramificare General ■reme a s s s EOS s b s s s EO s [ ] Cu cât s-ar reduce timpul total dacă timpul pentru operațiile în virgulă mobilă ar fi redus cu %? [ ] Cu cât se va reduce timpul de execuție al operațiilor cu numere întregi dacă timpul total este redus cu %? [ ] Poate fi redus timpul total cu % prin reducerea timpului de executare numai a instrucțiunilor de ramuri? Următorul tabel arată distribuția instrucțiunilor după tip pentru fiecare procesor atunci când se execută o anumită aplicație pe un număr diferit de procesoare: Numărul de procesoare cu plutire DOT întreg imstr Iistr per gr /guzzle Imstr vvtvl IPC (cu float, punct) IPC (întreg) IPC (agr , dev ) IPC (vetel a “ * * * ” * “ * b * (R " * " * " * Să presupunem că fiecare procesor rulează la GHz Exercițiul [ ] Cu cât ar trebui îmbunătățit CPI-ul pentru instrucțiunile în virgulă mobilă dacă programul trebuie să ruleze de două ori mai repede? | | Cu cât ar trebui îmbunătățit CPI-ul pentru instrucțiunile de salvare a încărcării dacă programul trebuie să ruleze de două ori mai repede? [ ] Cu cât se va reduce timpul de execuție a programului dacă CPI-ul pentru instrucțiuni cu numere întregi și virgulă mobilă este redus cu % iar IPC pentru instrucțiunile de încărcare-magazin și sucursală va fi redus cu %? Exercițiul O altă concepție greșită despre executarea programelor pe sisteme multiprocesor este că se așteaptă ca performanța să fie îmbunătățită prin reducerea timpului de execuție doar a unei porțiuni din subrutine Tabelul arată timpul de execuție a cinci subrutine care rulează pe un număr diferit de procesoare Număr de procesoare Subprogram A (ms) Subprogram B (ms) Subprogram C (MC) Subprogram D (ms) Subprogram E (ms) ] Determinați timpul total de execuție și gradul de reducere a acestuia dacă timpul de execuție al subprogramelor A, C și E se va reduce cu % [ ] Cu cât s-ar reduce timpul total dacă timpul de execuție a rutinei B ar fi redus cu %? [ ] Cu cât s-ar reduce timpul total dacă timpul de execuție a rutinei D ar fi redus cu %? Timpul de execuție într-un sistem multiprocesor poate fi împărțit în timp de calcul al subrutinei plus timpul petrecut comunicând între procesoare (timp de rutare) Luați în considerare timpul de execuție și timpii de rutare prezentate în tabel În acest caz, timpul de rutare este o componentă importantă a timpului total Număr de procesoare Subprogram A (ms) Subprogram B (ms) Subprogram C (ms) Subprogram D (ms) Subprogram E (ms) Rutare (ms) , Capitolul Abstracții și tehnologii computerizate [ ] Determinați pentru fiecare dublare a numărului de procesoare raportul dintre timpul petrecut la calcul și rutare [ | Folosind rapoartele medii geometrice, extrapolați pentru a determina timpul de calcul și timpul de rutare pe un sistem cu de procesoare Determinați timpul de calcul și timpul de rutare pentru sistemul cu un singur procesor Răspunsuri la întrebări pentru autoexaminare Secțiunea : Întrebările sunt pentru discuție, astfel încât răspunsurile multiple sunt acceptabile Secțiunea : Stocare pe disc: nevolatil, are un timp de acces lung (de ordinul a câteva milisecunde), costă de la de cenți la USD per gigaoctet Memoria semiconductoare: volatilă, cu un timp de acces scurt (de ordinul câtorva nanosecunde), costă de la la de dolari per gigaoctet Secțiunea autotest : a: ambii parametri sunt îmbunătățiți: : timpul de răspuns este redus, b: nicio îmbunătățire secunde Secțiunea autotest : b Secțiunea : Motivele și sunt corecte Răspunsul este, de asemenea, corect deoarece o producție mare poate atrage investiții suplimentare pentru a reduce dimensiunea plăcii cu, să zicem, % care este o soluție economică bună Secțiunea : a computerul A are un scor MIPS mai mare; : Computerul B este mai rapid capitolul Instructiuni: limbaj computer Îi vorbesc spaniolă lui Dumnezeu, italiană femeilor, franceză bărbaților și germană calului meu Kar " V Regele Franţei Introducere Pentru a opera echipamente informatice, trebuie să-i vorbiți limba Cuvintele din limbajul calculatorului se numesc instrucțiuni iar dicționarul lui se numește Set de instructiuni Dicționar de comenzi înțelese de arhitectură Conceptul de program stocat Ideea că numerele pot stoca instrucțiuni și date de mai multe tipuri ■ a dus la apariția computerelor stocarea programului în memorie Capitolul Instrucțiuni: Limbajul computerului Setul de instrucțiuni Acest capitol va analiza setul de instrucțiuni al computerului propriu-zis, care va avea două forme, scris de om și citit de computer Instrucțiunile vor fi prezentate în ordine descrescătoare, până când limbajul real al computerului real este vizibil Aprofundarea noastră asupra acestui subiect va continua în Capitolul , unde ne vom uita la hardware-ul aritmetic și vom introduce numere în virgulă mobilă Se poate crede că limbajele computerizate au aceeași rhaejubra-sis ca și limbajele umane, dar, de fapt, limbajele computerizate reale sunt foarte asemănătoare între ele și seamănă cu dialectele locale mai mult decât cu limbi complet diferite Prin urmare, învățând una dintre aceste limbi, le puteți stăpâni cu ușurință pe toate celelalte Asemănarea limbilor se datorează faptului că toate computerele sunt construite pe tehnologii hardware care au aceleași principii de bază și, prin urmare, toate computerele trebuie să efectueze o numărul de operații de bază Mai mult, toți dezvoltatorii de computere au același scop: să găsească un limbaj care să simplifice crearea de hardware și compilator, oferind în același timp performanță maximă la costuri minime și consum de energie Și acest obiectiv nu s-a schimbat în timp Următoarea afirmație a fost făcută cu mult înainte de a putea avea un computer, în , și este valabilă și astăzi: Folosind metodele logicii formale, este ușor de observat că există un anumit [set de instrucțiuni] care este destul de suficient pentru a controla și inițializa execuția oricărei secvențe de operații Din punct de vedere modern, propuneri cu adevărat constructive pentru alegerea unui [set de instrucțiuni] provin în principal din considerente practice: simplitatea echipamentului cerut de [setul de comenzi] și o înțelegere clară a domeniului de aplicare a acestuia pentru rezolvarea problemelor reale, combinată cu viteza de soluționare a acestora Barke, Idyad&pin și von Neumann, Pentru computerele moderne, „simplitatea hardware-ului” este un factor la fel de valoros ca în anii îndepărtați ai trecutului Scopul acestui capitol este de a explora setul de instrucțiuni care corespunde definiției de constructibilitate dată în citat, arătând în același timp cum este reprezentat acest set la nivel hardware și ce relații există între limbajele de programare de nivel înalt și mașina mai primitivă Toate exemplele sunt prezentate în limbajul de programare C Învățând cum să reprezinte instrucțiuni, vei descoperi și secretul procesului de calcul: conceptul de program stocat În plus, vei obține practica folosirii unei „limbi străine” prin scrierea de programe în limbajul unui computer Veți înțelege, de asemenea, impactul limbajelor de programare și al optimizărilor compilatorului Operațiunile efectuate de hardware-ul computerului privind performanța În concluzie, se va oferi o privire de ansamblu asupra evoluției istorice a seturilor de instrucțiuni și a altor dialecte computerizate Setul de instrucțiuni pe care l-am ales a fost dezvoltat de MIPS Technologies și reprezintă cel mai de succes exemplu din ceea ce a fost dezvoltat începând cu anii Apoi, o oarecare atenție va fi acordată altor două seturi de instrucțiuni populare Setul ARM este foarte asemănător cu MIPS, iar în , trei miliarde de procesoare ARM au fost livrate în dispozitive încorporate Un alt exemplu este setul de instrucțiuni Intel x folosit pe de milioane de computere personale fabricate în Vom lua în considerare setul de instrucțiuni MIPS în etape, luând în considerare structurile computerului împreună cu acestea Acest tutorial, care trece materialul pas cu pas de la concepte mai generale la concepte mai specifice, include componente ale computerului în explicații, făcând limbajul computerului mai ușor de înțeles și mai atractiv Operațiuni efectuate de echipamente informatice Fiecare calculator trebuie să efectueze operații aritmetice de scriere în limbaj de asamblare MIPS „Și a b cu spune computerului să adauge două variabile b și c și să plaseze suma lor în variabila a Această notație este codificată pentru fiecare instrucțiune aritmetică MIPS efectuând o singură operație și trebuie să aibă întotdeauna exact trei variabile Să presupunem, de exemplu, că doriți să puneți suma a patru variabile b, c, d not, în variabila a (În această secțiune, în mod deliberat, nu dăm un nume specific pentru ceea ce este o „variabilă”, lăsând-o pentru următoarea secțiune ) Suma celor patru variabile se obține prin executarea următoarelor instrucțiuni ulterioare: •In absenta b C * Su "" a b şi c ponevats" ■ a ny a A d „Acum e o cățea buet a b c și d scapa a A e A Și acum e a buet sunnah І> s d și e Astfel, pentru a obține suma a patru variabile, a fost nevoie de trei ■Instrucţiuni Toate cuvintele de pe fiecare linie din dreapta simbolului hash (♦) sunt -■ comentarii destinate percepției umane Computerul ignoră > Ss | Ss Operanzi cu trei registre; biți SAU pog (SAU exclusiv) nof Ssi Ss Ss Ssl (Ss I Ss ) Operanzi cu trei registre exclusiv sau și înmoaie (imediat i ) andi Ssl Ss Ssl ■ Ss & Bitwise AND registru și constantă Г sau immedete (imediat •OR-) ori Ssl $s Ssl - Ss OR pe biți a registrului și constantă Capitolul Instrucțiuni: Limbajul computerului Categoria de instrucțiuni Instrucțiuni Exemplu Sens Comentarii shrtt stânga togi-cal (deplasare logică la stânga) sil Ss Ss Ssl ="Ss " shrft nght logica i (deplasare logică la dreapta) sri Ssl Ss Ss »Ss » Deplasare la dreapta cu o constantă Ramificare condițională branchon equal beq Ss Ss , If (Ssl == Ss )goto PC ♦ ♦ Test de egalitate; ramificarea asociată cu contorul de programe ramură ol r»ot egal I ramură pe inegalitate) bne Ssl Ss If($s l- Ss )goto PC * ♦ Test de inegalitate, ramură contor program seton mai mic decât sil Ssl Ss Ss H(Ss gnat Sitru Ssl Ss dacă (Ss ah variabile simple care conțin elemente de date, dar există și structuri de date mai complexe ex matrice Aceste structuri complexe de date pot conține mai multe elemente de date decât numărul de registre din computere Cum poate un computer să reprezinte structuri atât de mari și să le acceseze? Amintiți-vă cele cinci componente ale unui computer care au fost introduse în Capitolul și revizuite la începutul acestui capitol Un procesor poate stoca doar o cantitate mică de date în registre, dar memoria computerului conține miliarde de elemente de date Prin urmare, structurile de date (matrice și structuri) sunt stocate în memorie După cum sa explicat anterior, operațiile aritmetice sunt efectuate în instrucțiunile M PS numai cu registre, astfel încât asamblatorul MIPS trebuie să includă instrucțiuni care transferă date între memorie și registre Astfel de instrucțiuni se numesc instrucțiuni de transfer de date Pentru a accesa un cuvânt din memoria de instrucțiuni, trebuie să furnizați o adresă de memorie Memoria este doar o mare matrice unidimensională în care adresa se comportă ca un index al acelei matrice, începând cu De exemplu, în figura al treilea element de date are adresa iar valoarea elementului Nelugu[ ] este Procesor unu Adresa Memorie Orez Adresele și conținutul memoriei la aceste adrese Dacă aceste elemente ar fi elefanți, datele de adresă ar fi incorecte, deoarece M»PS utilizează de obicei adresarea de octeți în care fiecare cuvânt este reprezentat de patru octeți Figura - prezintă adresarea de memorie pentru adresarea secvențială a cuvintelor Operanzi hardware de calculator O instrucțiune de transfer de date care copiază datele din memorie într-un registru se numește în mod tradițional încărcare Formatul unei instrucțiuni de încărcare este numele operației urmat de registrul de încărcat, urmat de constanta și registrul utilizat pentru accesarea memoriei Suma constantei și conținutul celui de-al doilea registru formează adresa de memorie Numele actual MIPS pentru această instrucțiune este lw care înseamnă încărcare cuvânt Exercitiul Compilare când operandul este în memorie Să presupunem că A este o matrice de de cuvinte, iar compilatorul, ca mai înainte, a legat variabilele și h la registrele Ssl și *s De asemenea, presupunem că adresa de pornire sau de bază a matricei este în registrul FROM Compilați această declarație de atribuire în C: • h ♦ A[ ] Deși această instrucțiune de alocare conține o singură operație, unul dintre operanzi este în memorie, așa că mai întâi trebuie să transferați A (B) în registru Adresa acestui element de matrice este suma bazei matricei A, care se află în Registrul JsJ și numărul elementului selectat în Datele trebuie plasate într-un registru temporar pentru a putea fi utilizate în instrucțiunea următoare Pe baza diagramei prezentate în rms prima instrucţiune emisă de compilator va fi lw ttO B (S$ ) (Vom ajusta această instrucțiune puțin mai târziu, dar deocamdată vom folosi această versiune simplificată ) Următoarea instrucțiune poate opera pe o valoare PO (care este A[ ]) întrucât este un registru Instrucțiunea trebuie să adauge valoarea lui h (conținută în ss ) la ] (FROM) și să plaseze suma în registrul corespunzător variabilei g (care este asociată cu *sl): a * • • • -■* „a!* - „**-•*• și" Interfață hardware și software În arhitectura MIPS, load word* și store word sunt instrucțiuni care copiază cuvinte între memorie și registre Alte tipuri de computere folosesc alte instrucțiuni pentru transferul de date, împreună cu încărcarea aerului și salvarea Asemenea instrucțiuni alternative sunt disponibile în arhitectura Intel x discutat în secțiunea Multe programe au mai multe variabile decât există registre într-un computer Prin urmare, compilatorul stochează variabilele cele mai frecvent utilizate în registre și pune restul în memorie, folosind load și store pentru a muta variabilele între registre și memorie Principiul designului hardware în ceea ce privește dimensiunea și viteza dictează că memoria ar trebui să fie mai lentă decât registrele, deoarece există mult mai puține registre Exact așa este: datele sunt accesate mai repede dacă nu sunt în memorie, ci în registre În plus, datele din registru sunt mai ușor de utilizat Instrucțiunea de aritmetică MIPS poate citi date din două registre, le poate procesa și scrie rezultatul Instrucțiunea de transfer de date M PS citește doar un operand sau scrie un operand fără a-l procesa Astfel, accesul la registre durează mai puțin timp și este mai performant decât accesul la memorie, astfel încât datele din registre sunt mai rapid de recuperat și mai ușor de utilizat Accesul la registru necesită, de asemenea, mai puțină putere decât accesul la memorie Pentru a obține cele mai înalte performanțe și economie, compilatorii trebuie să utilizeze registrele în mod eficient Capitolul Instrucţiuni: Limbajul computerului Constante sau operanzi imediati Utilizarea constantelor în program este masivă, ei de exemplu, ele sunt utilizate atunci când se incrementează un index pentru a indica următorul element de matrice De fapt, la executarea unui set de sarcini de testare SPEC , mai mult de jumătate din instrucțiunile aritmetice MIPS au o constantă ca operand Folosind doar acele instrucțiuni pe care le-am întâlnit până acum pentru a folosi o constantă, trebuie să o încărcăm din memorie (Constanta trebuie plasată în memorie când programul este încărcat) De exemplu, pentru a adăuga constanta în registrul $s , putem folosi următorul cod: lw StO Addrtoo$tant (Ssl) I PO - cancel add Ss Ss StO # Ss - »s ♦ StO("tO - ) presupunând că Ssl ♦ MdrCon$tani este adresa de memorie pentru constanta O alternativă care evită utilizarea instrucțiunii de încărcare este utilizarea versiunilor propuse ale instrucțiunilor aritmetice în care un operand este o constantă Această instrucțiune de adăugare rapidă cu un operand constant se numește imediată Pentru a adăuga la Ss , scrieți pur și simplu: add S$ Ss # Ss • Ss ♦ Instrucțiunile directe ilustrează al treilea principiu al grupării kosh, menționat pentru prima dată în secțiunea Concepții greșite și neînțelegeri din Capitolul : Principiul de proiectare Sarcinile frecvente ar trebui finalizate mai rapid Operanzii constanti sunt destul de obișnuiți, iar prin includerea constantelor în instrucțiunile aritmetice, operațiile sunt mult mai rapide și folosesc mai puțină putere decât atunci când constantele sunt încărcate din memorie Constanta zero este destinată unui alt scop - simplificarea setului de instrucțiuni prin furnizarea de modificări utile De exemplu, o operație de mutare este doar o instrucțiune de adăugare, unde unul dintre operanzi'>n este zero Prin urmare, MIPS are un registru dedicat irego cu o valoare zero implementat în hardware (Probabil faptul că acest registru este numerotat zero nu vă va surprinde ) Autotestare Vorbind despre importanța registrelor, cum se poate estima rata de creștere a numărului de registre pe un cip? Cât de mare: numărul lor a crescut conform legii lui Moore, care a prezis o dublare a numărului de tranzistori de pe un cip la fiecare luni Rata scăzută: Deoarece programele sunt distribuite de obicei în limba computerului, arhitectura setului de instrucțiuni are o inerție mare și, prin urmare, numărul de registre crește doar odată cu introducerea unui nou set de instrucțiuni Numere semnate și nesemnate Clarificare Deși registrele MIPS din această carte sunt prezentate ca pe de biți, există și o versiune pe de biți a setului de instrucțiuni MIPS, care are treizeci și două de registre pe de biți Pentru a evita confuzia, seturile oficiale sunt numite MIPS- și MIPS- - acest capitol va fi folosit un subset al MIPS- Adresarea MIPS folosind majuscule de bază plus un amestec este excelentă atât pentru structuri, cât și pentru matrice, deoarece majusculele pot indica începutul unei structuri, iar blend poate selecta elementul dorit Un exemplu va fi prezentat în secțiunea Utilizarea unui registru în instrucțiunile de transfer de date a fost concepută inițial pentru a stoca indexul unui tablou cu un offset folosit ca adresă de pornire a matricei De aceea, registrul de bază este numit și registru index În zilele noastre, dimensiunile memoriei au crescut semnificativ , iar modelul de programare pentru alocarea datelor a devenit mai complex, astfel încât adresa de bază a matricei trecea de obicei în registru, deoarece, după cum vom vedea mai târziu, nu se va potrivi în mixare Deoarece MIPS acceptă constante negative, nu este nevoie de o instrucțiune de scădere directă MIPS Numere semnate și nesemnate În primul rând, să aruncăm o privire rapidă asupra modului în care un computer reprezintă numerele Oamenii învață să folosească numere zecimale, adică numere în baza , dar numerele pot fi reprezentate folosind orice altă bază De exemplu în baza este în baza Numerele sunt stocate în hardware-ul computerului ca o serie de semnale electronice de nivel înalt și scăzut, deci sunt tratate ca numere de bază (Așa cum numerele de bază sunt numite zecimale, numerele de bază sunt numite binare) O singură cifră a unui număr binar este astfel un „atom* al tehnologiei de calcul, deoarece toată informația este alcătuită din cifre binare) sau biți (autobuz) Acest bloc de bază poate avea una dintre două valori, care pot fi considerate ca mai multe alternative: ridicat sau scăzut, activat sau oprit, ridicat sau fals, sau Rezumând cele de mai sus, pentru orice bază a numărului, valoarea cifrei r a lui d este egală cu d * Baza i începe de la zero și crește de la dreapta la stânga Figura daoică Denumit și bit binar Una dintre cele două cifre ( sau ) ■ care reprezintă numere în baza Face parte din reprezentarea informației Capitolul Instrucţiuni Limbajul computerului ciot de fundație Pentru numerele zecimale vom folosi indicele și pentru binare vom folosi De exemplu, reprezintă ( - ) ♦ ( m ") ♦ ( - ') * ( " % • ( " in) ♦ ( " ) ♦ ( x ) (i « ) m - complement a doi care reprezintă numere de la |I (- ) în sus la |in ( ” * I) Pentru a reduce câmpul de valoare imediată la un registru de de biți, computerul trebuie să convertească numărul de biți în echivalentul său de de biți, un truc scurt este să extragă bitul cel mai semnificativ din cel mai mic Capitolul Instrucțiuni: Limbajul computerului valoare - bit de semn - și în copiere pentru a umple biți noi cu o valoare mai mare Biții vechi sunt pur și simplu copiați în partea dreaptă a cuvântului nou Acest truc scurt este adesea numit extindere a semnelor Exercitiul Semnează recepția extensiei Convertiți versiunea pe biți a numerelor și - | în numere binare pe de biți Răspuns Versiunea binară pe biți a lui este: SRL ; - , Conversia la un număr de de rânduri se face făcând copii ale celor mai semnificative valori ale biților ( ) și plasându-le în jumătatea din stânga a cuvântului Jumătatea din dreapta a cuvântului primește valoarea veche: OOOO OOOOS ME * , „ Acum inversează versiunea pe biți a lui folosind prima comandă rapidă Deci se transformă în • Sh , A face versiunea pe de biți a unui număr negativ înseamnă a copia de ori bitul de semn și a pune rezultatul în partea stângă: ,- - " Acest truc funcționează deoarece numerele de complement doi pozitive din partea stângă conțin zerouri infinite, iar numerele de complement doi negative au o succesiune infinită de unități în partea stângă Modelul de biți care reprezintă numărul ascunde biții conducători, încadrând numărul în numărul de biți furnizat de hardware; extinderea semnului restaurează pur și simplu unii dintre acești biți Scurte concluzii Principalul punct care a fost subliniat în această secțiune este că în lumea computerelor trebuie să reprezentăm atât numere întregi pozitive, cât și negative și în ciuda tuturor avantajelor și dezavantajelor diferitelor opțiuni, din , adăugarea la două a devenit predominantă Autotestare Care va fi valoarea zecimală a acestui număr de complement pe doi pe de biți? Numere semnate și nesemnate io - „ O ,o Clarificare Complementul a doi își primește numele de la regula conform căreia ummah fără semn este cifra n-o a unui număr și valoarea sa negativă este "; prin urmare, complementul sau valoarea negativă a lui x cu complementul a doi este " - x A treia versiune a reprezentării, care este complementul a doi al companiei la semn și valoarea absolută, se numește complementul unu x este egal cu " x Această variantă a pretins, de asemenea, că este o soluție mai bună decât semnul și valoarea absolută și mai multe timpurii calculatoarele au folosit această notație pentru calcule științifice Această reprezentare este similară cu reprezentarea complementului a doi, cu excepția faptului că are și două zerouri: OO , ca zero pozitiv și ca punct negativ număr, OOO, este | în, iar numerele pozitive și negative sunt echilibrate Addatorii de la complementul unu au nevoie de un pas suplimentar pentru a scădea un număr, așa că numărul de astăzi punctul de vedere minier este în plus la două Ultima reprezentare pe care o vom lua în considerare atunci când discutăm numerele în virgulă mobilă în Capitolul va fi forma reprezentării celei mai negative valori ca e și cea mai pozitivă ca , cu zero având valoarea a Această formă se numește reprezentare mixtă deoarece deplasează numărul în acest fel astfel încât numărul plus amestecul să aibă o „reprezentare negativă Clarificare Pentru numerele zecimale cu semn, folosim valori negative-zecimale pentru a reprezenta, deoarece nu există restricții privind dimensiunea unui număr zecimal Cu o dimensiune fixă a cuvântului, binare și hexazecimale (a se vedea tabelul ) șirurile de biți pot codifica un semn, deci de obicei nu folosim •-*• sau —■ cu notaţie binară sau hexazecimală Complementul cuiva O notație care reprezintă cea mai mare valoare negativă ca și cea mai mare valoare pozitivă ca menține un echilibru de numere pozitive și negative, dar are două zerouri, unul pozitiv ( ,, , ) și unul negativ ( ,) Termenul este folosit și pentru a se referi la inversarea fiecărui bit dintr-o combinație; la și la Reprezentare deplasată Forma de reprezentare a celei mai negative valori ca și cea mai pozitivă valoare ca , unde zero are de obicei valoarea , deci offset-ul unui număr conform numărului de principiu plus offset are o reprezentare nenegativă Capitolul Instrucțiuni: Limbajul computerului Prezentarea instrucțiunilor în calculator Acum suntem gata să explicăm diferența dintre modul în care oamenii instruiesc computerele și modul în care computerele văd instrucțiunile Instrucțiunile sunt stocate într-un computer ca o secvență de semnale electronice înalte și joase și pot fi reprezentate ca numere De fapt, orice parte a instrucțiunii poate fi considerată un număr separat, iar astfel de numere, așezate una lângă alta, formează o instrucțiune Deoarece există o referință la registre în aproape fiecare instrucțiune, trebuie să existe acord pentru maparea numelor de registre la numere În limbajul de asamblare MIPS, registrele de la »sC la S$ sunt mapate la registrele la de la la Deci IP înseamnă registrul R înseamnă registrul , $$ înseamnă registrul StO înseamnă registrul , R înseamnă registrul și așa mai departe Convenția pentru restul de de registre va fi discutată în secțiunile următoare Exercitiul Traducerea instrucțiunilor de asamblare MIPS în instrucțiuni de mașină Să facem următorul pas în stăpânirea limbajului MIPS ca exemplu Vom arăta o versiune de instrucțiuni a limbajului MIPS actual exprimată în formă simbolică StO isl B mai întâi ca o combinație de numere zecimale și apoi ca o combinație de numere binare Răspuns Reprezentarea zecimală are următoarea furcă L' L ? Fiecare dintre aceste părți ale instrucțiunii se numește câmp Prima și ultima cifră (care în acest caz conțin și ) în combinație îi spun computerului MIPS că această instrucțiune efectuează o adunare Al doilea câmp oferă numărul de registru care este axa pentru operația de adăugare cu primul operand sursă ( - Ssl) iar al treilea câmp furnizează al doilea operand sursă pentru adunare ( - Ss ) Al patrulea câmp conține numărul registrului care primește suma ( - stO) Al cincilea câmp nu este utilizat în această instrucțiune, deci este setat la zero Prin urmare această instrucțiune adaugă registrul Ss cu registrul Ss si plaseaza suma in registrul StO Această instrucțiune poate fi reprezentată și sub formă de câmpuri non-zecimale, dar numere lenoide: oooooo SOOO oooooh oooooo cifre cifre cifre cifre cifre cifre Reprezentarea instrucțiunilor într-un computer Acest aranjament al instrucțiunii se numește format de instrucțiune Prin striping biții, puteți determina că această instrucțiune MIPS ocupă exact biți - dimensiunea corespunzătoare cuvântului de date Pe baza principiului nostru de proiectare conform căruia simplitatea preferă persistența, toate instrucțiunile lPS au o lungime de de biți Pentru a distinge notația binară de limbajul de asamblare, versiunea numerică a instrucțiunilor se numește limbajul mașinii, iar secvența unor astfel de instrucțiuni este codul S-ar putea să aveți impresia că acum trebuie să citiți și să scrieți lungimi jre și numere binare incomode Pentru a evita acest lucru, va ajuta utilizarea numerelor care au o bază mai mare, care sunt ușor convertite în numere binare Polka aproape toate dimensiunile datelor computerului sunt multipli de patru, numere hexazecimale (bazate pe ) popularitate chinuită Deoarece baza este o putere a lui , putem pur și simplu converti prin înlocuirea fiecărui grup de patru cifre binare cu o singură cifră hexazecimală, • invers În tabel arată ordinea conversiei unor numere în altele ■blitz Tabel de conversie hexazecimal și binar ue X •la , |f , - , Sn , • , H , , , , , it, ah ” , •și , OOP, , n , , , - dar înlocuiți doar o cifră hexazecimală cu cele patru cifre duble ale sale și invers Deoarece este destul de comun să se ocupe de baze diferite, pentru a evita confuzia, numerele zecimale vor folosi indicele , numerele binare vor folosi indicele , iar numerele hexazecimale vor folosi indicele (Dacă nu există indicele, valoarea implicită va fi • presupunem că numărul are baza ) Apropo, pentru numerele hexazecimale în C și Java se folosește notația Opppp • iritabilitate conversia numerelor binare în numere hexazecimale Convertim următoarele numere hexazecimale și binare în numere cu alte baze esat OOP OSH , Format de instrucțiuni Formularul de reprezentare a instrucțiunii, constând din câmpuri cu numere binare Limbajul mașinii O reprezentare binară folosită pentru a transmite informații într-un sistem informatic Numere hexazecimale Numerele din baza Capitolul Instrucţiuni Limbajul computerului Răspuns Pentru a răspunde, uită-te la tabel și o direcție: esav Ia Și apoi în cealaltă direcție bdf Іb Câmpurile MIPS Pentru a le face mai ușor de văzut Câmpurilor MIPS au primit nume: cifre cifre cifre cifre cifre cifre Numele fiecărui câmp de instrucțiuni MIPS are următoarea semnificație: ♦ op: operația principală a instrucțiunii, denumită în mod tradițional opcode (opcode) ♦ Dl primul registru al operandului sursă ♦ RF al doilea registru al operandului sursă ♦ rd: registru operand destinație Primește rezultatul operației ♦ shamt shift amount (Acest termen și instrucțiunile de schimbare sunt discutate în secțiunea - ; acest câmp nu a fost folosit până acum, deci are o valoare zero în această secțiune ) ♦ funcție funcţie Acest câmp este adesea denumit codul funcției și selectează o variantă specifică a operațiunii specificate în pollor Când o instrucțiune are nevoie de un câmp mai lung decât cel prezentat mai sus, apare o problemă De exemplu, o instrucțiune de încărcare a cuvintelor trebuie să specifice două registre și o constantă Dacă adresa în formatul arătat mai sus ar folosi unul dintre câmpurile de biți, atunci koi-opcode stanta incluse în instrucțiunile de încărcare a elefanților Câmpul care denotă operația și forma Va fi limitat la numai * sau instrucțiunea NUM Această constantă este utilizată pentru a selecta Prezentarea instrucțiunilor pe un computer mementon dintr-o matrice sau structură de date și adesea trebuie să fie mai mare • a cantat Acest câmp de biți este prea mic pentru acest scop Se dovedește că avem un conflict între dorința de a menține toate instrucțiunile la aceeași lungime și dorința de a avea un singur format de instrucțiuni, ceea ce ne duce la principiul final al proiectării echipamentelor: Ghid de proiectare : Un design bun necesită compromisuri bune Compartimentul ales de proiectanții sistemelor MIPS a fost de a păstra aceeași lungime pentru toate instrucțiunile, ceea ce a necesitat diferite tipuri de instrucțiuni • pentru diferite tipuri de instrucțiuni De exemplu, formatul prezentat mai sus se numește tip R (pentru caz) sau format R Al doilea tip de format de instrucțiuni se numește -types (pentru date imediate - immediatc) sau format și este folosit pentru instrucțiuni cu date imediate • instrucţiuni de transfer de date Câmpurile cu format arată astfel: org gv rt constantă sau adresa cifre cifre cifre cifre O adresă de biți înseamnă că o instrucțiune de încărcare a cuvintelor poate încărca ambele cuvinte din zona de ± ” sau de octeți (* ' sau de cuvinte) la adresa specificată în registrul de bază r$ În același mod, adăugarea directă este limitată la n-stang, care are o valoare în intervalul ± ' În mod clar, în acest format, utilizarea a mai mult de de registre ar necesita încă un bit pentru câmpurile rs, ceea ce face dificilă încadrarea a tot ceea ce este necesar într-un singur cuvânt Să aruncăm o privire la instrucțiunile de încărcare a elefanților din exercițiul anterior privind agilitatea sarcinii când operandul este în memorie i St ( s ) # Ștergeți registrul IO devine A[B] Aici numărul (pentru registrul $$ ) este plasat în câmpul rs, numărul (pentru registrul StO) este plasat în câmpul 't iar numărul este plasat în câmpul de adresă Rețineți că valoarea câmpului rt pentru această instrucțiune s-a schimbat: în instrucțiunea de încărcare „Câmpul dvs rt indică registrul de destinație care primește rezultatul încărcării Deși utilizarea mai multor formate complică proiectarea echipamentului complexitatea poate fi redusă prin similitudinea formatului De exemplu, primele câmpuri -|și ale formatelor de tip R și tip au aceeași dimensiune și nume; lungimea câmpului următor din I-tils este egală cu suma lungimilor ultimelor trei câmpuri din tipul R Doar în cazul în care aveți această întrebare, formatele sunt diferențiate prin rularea în primul câmp Fiecărui format i se atribuie o anumită valoare op pentru primul câmp (op), astfel încât hardware-ul știe să se uite la ultima jumătate a instrucțiunii ■ : cum trei câmpuri (tip R) sau ca câmp cho (tip ) Figura prezintă numerele utilizate în fiecare câmp pentru instrucțiunile MIPS văzute aici Capitolul Instrucţiuni: Limbajul computerului Tabelul Codificarea instrucțiunilor MIPS În acest tabel, -hed- înseamnă numere de registru cuprinse între și , „adresă-” înseamnă o adresă de biți și „p a” (nu se aplică) înseamnă că acest câmp nu apare în acest format Rețineți că instrucțiunile add și sub au aceeași valoare în câmpul op; pentru a determina varianta operației, echipamentul folosește câmpul funct: adunare ( ) sau scădere ( ) Format de instrucțiuni SAU HW rt rd shamt tunet address adaugă (adăugare) A rog ged ged pa sub (scădere) I gad gad g yad , p adăugare imediată (adăugare imediată) • f d d d p a p a pe abstract lw (încărcare de cuvinte) , hed hed pa tata adresa sw (stocare cuvinte) ,, ged ged p a pa p a adresa Exerciții Traducerea limbajului de asamblare MIPS în limbajul mașinii Acum putem lua un exemplu cu drepturi depline despre ceea ce scrie un programator și ce face un computer A(ZOO) - h ♦ ASZOO] se compila la JtO (" > lw a srl Puțin câte puțin” AND & & și, andi Pe biți SAU CM Ofl Pe bit" NU * * nici Prima clasă de astfel de operatori se numește schimburi Ei mută •:e biți dintr-un cuvânt la stânga sau la dreapta, umplând biții goli cu zerouri De exemplu dacă registrul SsO conţine ::oo oooo oooo oooo oooo oooo oooo yuoi - nouă , Capitolul Instrucțiuni: Limbajul computerului iar instrucțiunea de deplasare la stânga este executată pe biți, noua valoare va fi următorul număr: ) ,- | Perechea pentru o schimbare la stânga este o operație de schimbare la dreapta Numele reale ale acestor două instrucțiuni de deplasare MIPS sunt shift left loffcal(ț\ ), adică deplasare logică la stânga și ahift nght logical (srl >, schimbare logică la dreapta Următoarea instrucțiune realizează operația prezentată mai sus, cu condiția ca valoarea inițială a fost plasat în registrul I și rezultatul va fi plasat în registrul It : sil St $s reg M - reg SsO « biți Am amânat luarea în considerare a câmpului shant în format R Este pentru valoarea de schimbare utilizată în instrucțiunile corespunzătoare Astfel, versiunea în limbajul mașinii a instrucțiunii prezentate mai devreme este următoarea: org gv rt rd ahamt tunet O O Codificarea instrucțiunii sil este reprezentată prin zerouri ca în polsor deci în câmpul funct, slotul rd conține numărul (registrul M ), rt conține numărul (registrul $ ) iar sn unsprezece: Să presupunem că i și k se referă la registrele FROM și Is iar adresa de bază a matricei este stocată în registrul I Ce fel de cod MIPS de asamblare bu, z care corespunde acestui fragment de cod C? Răspuns Primul pas este să încărcați $a»e[i] într-un registru temporar Înainte de a putea încărca sevei i] într-un registru temporar, trebuie să obținem adresa lui Înainte de a putea adăuga i la adresa de bază a matricei de salvare pentru a forma o adresă, trebuie să înmulțim indexul cu pentru a rezolva adresa de octeți problemă Din fericire, putem folosi o deplasare logică la stânga, deoarece deplasarea la stânga a două locuri este la fel cu înmulțirea cu ’ sau cu (vezi secțiunea anterioară) Trebuie să adăugăm o etichetă ioop la această instrucțiune, astfel încât să putem ramifica înapoi la această instrucțiune la sfârșitul buclei ioor $ Stl S$ I Registrul provizoriu SU • * Pentru a obține adresa Saveli , trebuie să adăugați valoarea Stl la adresa de bază a Save stocat în registru $$ : add Stl tl Ss t Itl • airesu sa»e[i) Acum puteți folosi această adresă pentru a încărca savefi ] într-un registru temporar: lw StO O(Hl) registru de bărbierit StO • ikvel i) Următoarea instrucțiune efectuează un test de buclă, ieșind if savel ) • to: pne ItO SsS Exlt ♦ jump ma Exkt if $ave[i] ■ to Următoarea instrucțiune adaugă la i: „Mi Ss S$ fi • I” La sfârșitul buclei, se ramifică înapoi la testul buclei ыѵ le din partea de sus După această ramură, pur și simplu adăugăm eticheta Extt și am terminat: j ioor I la ioor Exil (Consultați exercițiile de optimizare pentru această secvență ) Instrucțiuni pentru luarea unei decizii Interfață hardware și software Secvențele de instrucțiuni care se termină în ramuri sunt atât de comune la compilare încât și-au dat propriul termen special: bloc de bază - o secvență de instrucțiuni care nu are ramuri și adrese de salt sau semne de ramuri Una dintre primele faze incipiente ale compilației bate un program în blocuri de bază Testul pentru egalitate sau pentru inegalitate este probabil cel mai popular test, dar „când este util să știi că o variabilă este mai mică decât o altă variabilă De exemplu, youtu gog ar putea avea nevoie de un test pentru a verifica dacă variabila index ■ nu este zero Această comparație se face în limbajul de asamblare MIPS folosind o instrucțiune care compară două registre și setează al treilea registru la dacă primul registru este mai mic decât al doilea; în caz contrar, * setează valoarea la Această instrucțiune MIPS se numește * setat dacă este mai mic decât, * setează pe mai puțin decât sau slt De exemplu KO Ss Ss I (G Interpretarea numerelor cu semn ca și cum ar fi nesemnate ne oferă o modalitate ieftină de a verifica, -opine, sau »$| reium f Care va fi asamblatorul compilat co*, MIPS? Suportul procedurilor în echipamente informatice Răspuns Variabile g B m și i corespund registrelor de argument MO Sal Saz și Ia , în variabila f corespunde registrului SsD Programul compilat începe cu eticheta procedurii lasa e'emple Următorul pas este salvarea registrelor utilizate de procedură Instrucțiunea de atribuire din gelul de procedură este identică cu cea prezentată în exercițiul , Compilarea unei instrucțiuni complexe C către MI PS-Col, care utilizează doi registre temporare, astfel încât trebuie salvate trei registre: SsO MO și M Împingem valorile vechi pe stivă, creând spațiu pe stivă pentru trei cuvinte ( octeți) și registre de păstrare a pietrelor prețioase „AT” S P І - S«Stl (Ssp> sw StO (Ssp) sw SsO O(Ssp) ia fig arată stiva de dinainte în timpul și după apelul procedurii În urma clinului sunt trei instrucțiuni „pentru a schimba corpul procedurii și practic repetat codul exercițiului din paj tr ia • Compilarea unei instrucțiuni complexe în limbaj C în cod MIPS”: a's MO SaO Sal „la Ml s” Sa iuti SsO MO St Pentru a returna valoarea lui t, o copiem in registrul valorii returnate ade SvO SsO Irego # fcpej, revenind din procedură, restaurăm cele trei valori salvate anterioare ale itnetr și le „facem” din stivă: ' și SsO O(Ssp> la MO (Ssp) și Ml (Ssp> addl Ssp Ssp Procedura se încheie cu o instrucțiune de salt de registru folosind ♦ înființat "" perete cu eliberarea de" yesta "l" intrări # salvarea registrului Stl în „al cincilea istoric al apelurilor ulterioare **” și salvarea registrului StO în „următorul utilizabil și salvarea registrului „s ” cinci istoric apeluri ulterioare” iar registrul MO conţine g • g> iar registrul M conţine ♦ j it • MO - Ml care corespunde cu (g ♦ h)- isp Isc - I la scurt timp "taie cu" inregistrari II Iga ( ) ♦ compus* credință călcat în picioare sw MO Otlsp) f salva artuieig n În primul apel la procedura 'act, instrucţiunea sk stochează adresa programului care a apelat-o Următoarele două afirmații verifică dacă „ este mai mic decât ■ eticheta L , dacă p » ! slti BtO laO lt mare "ci" alte optiuni n - argumente "-r primește s * a" eiiie (n • ) jal fact ♦ jal fact c (n - ) Urmează instrucțiunea despre care fapt este returnat Acum adresa de retur N'-zhyy, argumentul anterior și indicatorul stivei sunt restaurate: ■ MO Otlsp) jozaraoenae din no jal call: restaurare argument n ■ Mă attsp) ♦ vosc-yumeiee adresa» »oz»mm "hp Isp Isp t settings” stivă pointerii pentru a afișa „toate intrările a și valoarea registrului IVO devine rezultatul înmulțirii argumentului anterior MO '*voxsp> al numărului din registrul de valori Aici se presupune că instrucțiunea miiiiii ne este disponibilă, deși nu va fi luată în considerare până la capitolul № ІѵО МО IvG # return- n • fapt (n - ) І^tinereţea procedura de fapt sare din nou la adresa de retur: Іga I return managementul programului Capitolul Instrucțiuni: Limbajul computerului Interfață hardware și software O variabilă în C este în general o bucată de memorie, iar interpretarea ei depinde atât de tipul ei, cât și de clasa de stocare Exercițiile includ numere întregi și simboluri (vezi secțiunea ) Există două clase de memorie în C: automată și statică Variabilele automate sunt locale unei proceduri și sunt invalidate atunci când procedura iese Variabilele statice există indiferent de procedurile de intrare sau de ieșire din proceduri În C, variabilele declarate în afara tuturor procedurilor sunt considerate statice, la fel ca toate variabilele declarate folosind cuvântul cheie static Toate celelalte variabile sunt considerate automate Pentru a simplifica accesul la datele statice, software-ul MIPS a alocat un alt registru numit indicator global sau *etc În tabel Figura - oferă informații despre ceea ce este stocat în timpul unui apel de procedură Rețineți că un număr de scheme păstrează stiva în sine, asigurându-se că programul apelant primește aceleași date înapoi, încărcându-le din stivă așa cum este stocată acolo Stiva de mai sus este salvată pur și simplu după subiecte că se iau măsuri pentru a împiedica scrierea programului apelat deasupra adresei stocate în îsp; iar valoarea IR-ului în sine este păstrată de programul apelat adăugându-i exact aceeași valoare care a fost scăzută din el; iar toate celelalte registre sunt păstrate prin stocarea lor pe stivă (dacă este folosit) și restaurarea lor de acolo Tabelul Ce este și ce nu este salvat în timpul unui apel de procedură Dacă software-ul depinde de cazul indicatorului de cadru sau de cazul indicatorului global, care sunt discutate în următoarele subsecțiuni, acestea sunt de asemenea salvate Salvat Nu salvat Registre reținute USD- USD Registre temporare USD- USD Stack pointer register Ssp Argument registers SaO Sa Per adresă de returnare aster $ha Valoarea de returnare înregistrează SvO-Svl Indicator de stivă deasupra stivei Indicatorul de stivă sub stivă Alocarea de spațiu pentru date noi pe stivă Ultima dificultate este că stiva este, de asemenea, folosită pentru a stoca variabile care sunt locale procedurii, dar nu se încadrează în registre, cum ar fi matrice sau structuri Segmentul de stivă care conține registrele stocate ale unei proceduri și variabilele sale locale se numește cadrul procedurii sau înregistrarea de activare Pointerul global arată starea stivei înainte, în timpul și după Registrul dedicat indicarii spre cerb domeniul tic al apelului de procedură Suport pentru proceduri în hardware-ul computerului O parte a software-ului MIPS folosește un indicator de cadru (sfp) pentru a indica primul cuvânt al unui cadru de procedură În timp ce procedura rulează, indicatorul stivei se poate modifica și, prin urmare, referințele la o variabilă de memorie locală pot avea amestecuri diferite, în funcție de locul în care se află în procedură făcând dificilă înțelegerea procedurii Ca o variantă alternativă, indicatorul cadru oferă un registru de bază stabil în cadrul procedurii pentru referințele locale din memorie Rețineți că înregistrarea de activare apare pe stivă indiferent dacă este folosit sau nu un indicator de cadru explicit Evităm să folosim ip pentru a evita modificarea $sp în cadrul procedurii: în exercițiile noastre, stiva a fost actualizată doar când procedura a intrat și a ieșit a b a nr O ilustrare a alocării spațiului a sejurului: a) înainte de apel, b) în procesul vae și c) după apelul de procedură Indicatorul de cadru (Jar) indică primul cuvânt al cadrului acesta este adesea registrul stocat al argumentului, iar indicatorul stivei (Ssp) indică valoarea stivei Stiva este ajustată pentru a face loc pentru toate registrele asociate și pentru toate variabilele locale din memorie variabile prin indicator de cadru imuabil, deși acest lucru se poate face prin arderea pointerului stivei și calculelor aritmetice cu adrese mici, este inițializat atunci când este apelat cu adresa stocată în Ssp iar $sp este restaurat folosind Sfp Alocarea de spațiu pentru datele din heap Pe lângă variabilele automate, locale la proceduri, pro-zamist C necesită spațiu pentru variabilele statice și pentru structurile de date simetrice Figura prezintă convenția folosită în MIPS: pentru alocare de memorie Stiva începe la cele mai mari adrese de memorie și crește în jos Prima parte a adreselor de memorie inferioare este rezervată, apoi există un loc pentru codul de mașină MIPS, Cadrul procedurii (PROCEDURE cadru) Numit și înregistrare de activare (acti-vaіyue record) Segment de stivă care conține registrele și variabilele locale stocate de procedură indicatorul de cadru O valoare care indică locația registrelor stocate și a variabilelor locale pentru procedura specificată Capitolul Instrucțiuni: Limbajul computerului numit în mod tradițional segmentul de text Deasupra acestui cod se află segmentul de date statice fiind locul constantelor si variabilelor statice În timp ce matricele tind să fie de lungime fixă și, prin urmare, se potrivesc bine în segmentul de date statice, structurile de date, cum ar fi listele legate tind să crească și să se micșoreze pe măsură ce sunt utilizate Un segment pentru astfel de structuri de date este denumit în mod tradițional „heap” și este plasat și mai sus în memorie Rețineți că această alocare permite stivei și heap-ului să crească unul spre celălalt, permițând astfel o utilizare eficientă a memoriei pe măsură ce cele două segmente cresc și se micșorează Rms Alocarea memoriei ■ MIPS pentru programe și date Această adresare este doar o convenție software și nu face parte din arhitectura MIPS Pointerul ) retum sm "(n - ESS ♦ P); el se retum as Luați în considerare apelarea procedurii sum( ) Va avea ca rezultat apeluri recursive la ■( ) sum( ) și i( ), iar apoi rezultatul va fi returnat de patru ori - as): Capitolul Instrucțiuni: Limbajul computerului soare sltitaO I beqtaO îzero swn exit acota tal taO adilaG taO -unu j soare sim exit ■ addtvO tai tzero jr tra t măsurat n (uau, fila deschisă la bar este grozav: uau fila deschisă la bar este grozav) A patra linie a tastaturii este plină •Hat leu Ulas" Calculatoarele au fost inventate ca „concasoare de numere, dar de îndată ce au devenit viabile comercial, au fost folosite pentru procesarea de text Majoritatea computerelor de astăzi oferă octeți de opt biți pentru a reprezenta caractere, iar Codul standard american pentru schimbul de ioni în format (ASCII) este aproape tot ceea ce este prezentat mai jos Un scurt rezumat al codului ASCII este prezentat în Figura Interfață hardware și software Numerele de bază sunt neobișnuite pentru oameni, avem zece degete și, prin urmare, numerele de bază sunt mai naturale pentru noi De ce computerele nu folosesc atunci numere zecimale? De fapt, primul computer comercial a oferit aritmetică zecimală Problema era că computerul încă folosea semnale de pornire și oprire, așa că cifrele zecimale erau pur și simplu reprezentate de câteva cifre binare Utilizarea numerelor zecimale s-a dovedit a fi astfel n>-și | m | n kіnn că computerele ulterioare au revenit la utilizarea numai numere binare, transformându-le în baza numai pentru evenimente relativ non-iac și evenimentele I/O ale acestora Comunicarea cu oamenii Valoare ASCII Caracter Valoare ASCII Caracter Valoare ASCII Caracter Valoare ASCII Caracter Valoare ASCII Caracter Valoare ASCII Caracter spatiu @ p • p i A o a q - L l B R b r f s s s s S D t d % E şi e u și F V V • G W SW g W ( n X h X ) Y i Y • J Z i z • k k ( in N • n - / ? sau DTL Chzh Reprezentarea caracterelor în tabelul ASCH Fii atent la asta că codurile din fag „phnhem și minuscule diferă cu exact de unități; această observație poate duce la modalități convenabile de verificare sau schimbare a majusculei literelor Valorile care nu sunt afișate în tabelul unic ■ includ caractere de format De exemplu, codul reprezintă un caracter macchi, codul este un caracter tabulator, iar codul returnează „are’ka” O altă valoare utilă este ^ ie> pentru nuli Aceasta este valoarea limbajului C programarea este folosită pentru a marca sfârșitul unei linii Iritarea o dată ASCII și numere binare Numerele cu valori întregi led pot fi reprezentate ca șiruri ASCII În ceea ce privește * ichitsn cantitatea de memorie, rețeaua un miliard nu va fi reprezentată de un număr întreg de de rânduri w ce zici de codurile ASCII? Indiferent dacă miliard este Așadar, afișajul său va avea cifre ASCII, fiecare dintre ele va avea un vârf de biți Prin urmare, creșterea cantității necesare de memorie va fi " H) / sau Pe lângă creșterea cantității necesare de memorie, un dispozitiv de adunare, citire, înmulțire și împărțire a unor astfel de numere zecimale ar fi prea complicat Această complexitate explică de ce profesioniștii în informatică sunt crescuți pe credință Capitolul Instrucțiuni: Limbajul computerului că numerele binare sunt perfect naturale, iar cazurile separate de calculatoare zecimale sunt complet ridicole Un grup de instrucțiuni poate extrage un octet dintr-un cuvânt prin urmare, încărcarea unui cuvânt și stocarea unui cuvânt este suficientă pentru a transfera atât octeți, cât și cuvinte Totuși, datorită popularității textului în unele programe, MIPS oferă instrucțiuni pentru mutarea octeților Instrucțiunea de încărcare octet (Ib) încarcă un octet din memorie plasându-l în cei opt biți din dreapta ai unui registru Instrucțiunea de stocare octet ($ ) preia un octet din cei opt biți din dreapta ai unui registru și îl scrie în memorie Astfel, un octet este copiat folosind următoarea secvență de instrucțiuni: b StO (Ssp) # octet citit de la sursă sb StO O(Sgp) # octet de scriere receptor Interfață hardware și software Numerele semnate și nesemnate joacă același rol în încărcare ca și în aritmetică O funcție de încărcare semnată care trebuie să copieze semnul pentru a umple restul spațiului de registru se numește extindere a semnelor, dar scopul ei este să pună reprezentarea corectă a numărului în acel registru Încărcarea fără semn completează tot spațiul din stânga datelor cu zerouri, deoarece numărul reprezentat de combinația de cifre este un număr fără semn Când încărcați un cuvânt de de biți într-un registru de de biți, acest lucru este discutabil; descărcările semnate și nesemnate sunt identice unele cu altele MIPS oferă două variante de încărcare de octeți: instrucțiunea de încărcare a octetului (Ib) tratează un octet ca un număr cu semn și, prin urmare, efectuează extinderea semnului pentru a umple cei de biți din stânga registrului, în timp ce instrucțiunea de încărcare a octetului nesemnat ( bu) funcționează cu nesemnat numere întregi Deoarece programele C folosesc aproape întotdeauna octeți pentru a reprezenta caractere mai degrabă decât pentru a reprezenta numere întregi cu semne foarte scurte, instrucțiunea ibu este aproape întotdeauna folosită pentru a încărca octeți De obicei, caracterele sunt concatenate în șiruri de caractere care au un număr variabil de caractere Există trei opțiuni pentru reprezentarea unui șir: ) prima poziție a șirului este rezervată pentru a furniza lungimea șirului ) lungimea șirului este conținută într-o variabilă (ca într-o structură) sau ) ultima poziție a șirului este indicată de un caracter folosit ca terminator de linie Limbajul C folosește o a treia variantă, unde șirul se termină cu un octet care are valoarea zero (numit nuli în ASCII) Astfel, șirul „Cal” este reprezentat în C cu următorii patru octeți, afișați ca numere zecimale , , , (Așa cum va fi arătat mai târziu, Ja\a folosește prima opțiune ) Comunicarea cu oamenii UIFAGING Compilarea unei proceduri de copiere a șirurilor care arată cum sunt utilizate șirurile în programele C Procedura strcpy copiază șirul y în șirul x, folosind convenția limbajului C pentru a termina un șir cu un octet nul: "ud strcpy(cu har *() char y[)> ( nt S ; "hile (Cxf ] • y[i]> '• \ ') /• xtnroding » iesiiroaanne by'a */ unsprezece eu Care va fi codul de asamblare MIPS? Răspuns Segmentul principal al codului de asamblare MÎPS este prezentat mai jos Să presupunem că aare de bază pentru tablourile x și y sunt în IaO și Sal, iar variabila i este în SsO Instrucțiunea strcpy ajustează indicatorul stivei și apoi împinge registrul SsO salvat în stivă: Yager addf Ssp Ssp - "orrekinroana ctexd pri eeee one zalney Sw SsO O(Ssp) salvat» SsO Pentru a inițializa ■ cu o valoare de Următoarea instrucțiune setează valoarea lui SsO la adăugând și și punând acea sumă în SsO: adăugați SsO Szero Szerp » • » Apoi începe ciclul Mai întâi, adresa y[ ] se formează prin adăugarea i la ytJ: LI add Stl SsO Sal i aaoec y(i] -oleme*s> « Stl Rețineți că nu trebuie să înmulțim m cu deoarece y este o matrice de octeți, nu cuvinte, ca în exercițiile anterioare Pentru a încărca un caracter în y[i], folosim instrucțiunea de încărcare unsigned bunt load l cu unsigned, ceea ce va împiedica sim în st?: Ibu St? O(Stl) St? -yfi] Același calcul al adresei plasează adresa x( ] în St , iar apoi caracterul din st? este stocat la acea adresă adăugați St SsO SaO sb St (St ) x[i] • yp] Ca fiu, ieșim din buclă dacă caracterul a fost nul Adică, ieșim dacă acesta este ultimul caracter al șirului: bep St? Szero dacă y[i] este tranziție „a L Dacă nu creștem valoarea lui i cu unu și mergem la începutul buclei addi SsO SsO l - • j tranziție ia Elli, nu mergem la începutul ciclului, ceea ce înseamnă că acesta a fost ultimul personaj din rând; restabilim SsO și pointerul stivei și apoi revenim din procedură Eu?: Iw SsO (Ssp) y[i] - capăt de șir Boccia io cântând A -a limită este SsO semnificativă addi Ssp ssp schgmn „* un seif” din stivă jr Sra »cnімі»е«nu Capitolul Instrucțiuni: Limbajul computerului Pentru a evita operațiunile i prezentate mai sus, șirurile *C sunt de obicei copiate folosind pointeri mai degrabă decât matrice O explicație a diferenței dintre matrice și pointeri este în secțiunea Deoarece rutina strepy prezentată mai sus este finită, compilatorul poate aloca „o” unui registru temporar și poate evita salvarea și restaurarea „$ ” Prin urmare, în loc să trateze registrele AND doar ca temporare, acestea ar trebui considerate ca registre pe care procedura apelată le poate folosi acolo unde este convenabil Când compilatorul se ocupă de procedura finală, consumă toate registrele temporare înainte de a folosi registrele pe care trebuie să le salveze Caractere și șiruri în limbajul Java Unuode este codificarea universală alphaniton pentru majoritatea limbilor naturale Figura prezintă o listă de alfabete Unicode; există aproape același număr de alfabete în acest număr p tua Rumc Cypr«t Syttabary Simboluri muzicale Temil Tagalog Tai Xuan Jmg Simboluri Săgeți 'elugi Hanunoo Yijing Simboluri Hexagrame Forme dreptunghiulare Kannoda Bubid Aegean Numbers Forme geometrice 'Sunt cu Un exemplu de alfabet acceptat în Unicode Unicode versiunea are mai mult de S colecții de caractere, numite „blocuri” Fiecare bloc este un multiplu de De exemplu, greacă (greacă) începe cu ,,, și chirilic (SupIIyu) începe cu ,, Primele coloane de cinci arată de blocuri corespunzătoare limbilor obișnuite, care sunt exact în aceeași ordine în care apar în Unicode Ultimele coloane au blocuri care sunt multilingve O codificare pe biți numită UTF- „folosește în mod implicit O codificare cu lungime variabilă numită UTF-B stochează setul ASCII ca opt biți și folosește până la de biți pentru alte caractere UTF- ” folosește de biți per fiecare caracter Pentru mai multe informații accesați www urncodo org Autotestare Care dintre următoarele afirmații despre caractere și șiruri în C și Java sunt adevărate? Un șir în C ocupă jumătate din memoria aceluiași șir în Java Șirurile sunt doar un nume informal pentru matricele unidimensionale de caractere în C și Java Jucătorii I C în C și Java folosesc nuli ( ) pentru a marca sfârșitul unui șir Capitolul Instrucțiuni: Limbajul computerului Operațiile cu șiruri, cum ar fi determinarea lungimii, sunt mai rapide în C decât în Java II Ce tip de variabilă care conține v ocupă mai multă memorie? int în C primul inel în C stringBjava Adresare MIPS pentru Imediate și Adrese pe de biți Deși lungimea comună de de biți pentru toate instrucțiunile MIPS simplifică proiectarea echipamentului, se întâmplă uneori ceea ce ar fi mai convenabil să aibă constante de de biți sau adrese de de biți Această secțiune începe cu o soluție generală a problemei creării constantelor mari și apoi arată optimizarea adreselor de instrucțiuni utilizate în salturi Operanzi imediati pe de biți Deși constantele sunt de obicei mici și se potrivesc într-un câmp de biți, uneori sunt mai lungi Setul de instrucțiuni MIPS include o instrucțiune pentru a încărca o valoare imediată în cei biți superiori, încărcare imediată superioară (lui), care este special conceput pentru a pune cei biți superiori ai unei constante într-un registru, lasă instrucțiunea următoare să specifice cei inferioare biți din constantă Exercitiul Descărcați constante pe de biți Care ar fi codul de asamblare MIPS pentru a încărca o constantă de de biți în registrul SsO? OOOO OOP OOOO oooo oooo Răspuns Mai întâi trebuie să utilizați instrucțiunea Iul pentru a încărca primele cifre, care în formă zecimală sunt >ii IO f aes" fin "sone - OOP ■ LCD După care, valoarea registrului *s va fi un număr OOOO OOP oooo oooo oooo oooo Următorul pas este să inserați ultimele cifre, care în formă zecimală sunt : OH IO IO t și msaayumoO cote? - COOO LLC În cele din urmă, înregistrați $$ va obține valoarea necesară: UN OOOO oooo oooo Adresarea MIPS pentru adresele imediate și adresele pe de biți Versiunea de mașină a instrucțiunii lui StO, » StO este registrul B: OOP II { I Conținutul registrului StO după executarea lui StO, : [ \ OOOO OOOO j Orez Rezultatul instrucțiunii lui Instrucțiunea Iul transferă valorile constantelor de rânduri către cei biți din stânga registrului, umplând cei biți de jos cu zerouri Interfață hardware și software Este la latitudinea compilatorului sau asamblatorului să despartă constantele mari și apoi să le asambleze într-un registru folosind date directe Dacă această sarcină este scrisă în asamblator, • Așa cum se face în software-ul MIPS, asamblatorul trebuie să aibă disponibil un registru temporar în care se creează valori lungi, acesta este scopul registrului Sat rezervat asamblatorului Prin urmare, reprezentarea simbolică a limbajului de mașină MIPS nu mai este limitată de designul hardware, ci doar de ceea ce creatorul asamblatorului a ales să includă în codul său (vezi secțiunea ) Având în vedere arhitectura unui computer, suntem strâns legați de hardware, acordând atenție acelor cazuri în care se folosește limbajul de asamblare extins, nedeterminat de designul procesorului Clarificare Crearea constantelor pe de biți necesită o atenție specială Instrucțiunea copiază bitul din stânga din câmpul de date imediate de biți • biți superiori ai cuvântului Instrucțiunea logică SAU imediată din secțiunea încarcă zerouri în cei biți superiori și, prin urmare, atunci când se creează o constantă de de biți, este folosită de asamblator împreună cu instrucțiunea lui Adresarea cu salturi condiționate și necondiționate Instrucțiunile de ramificare necondiționată MIPS folosesc cea mai simplă adresă- ) mult muttu drv divu an ) add addu sub tract subu and or not could or ( POG) ) setl t setl t neslqned S Jul build și coloane De exemplu, partea de sus a figurii arată instrucțiunea de încărcare a cuvântului - yao emd • în linia ( pentru biții - ai instrucțiunii) și în coloana ( ) , pentru biții * in-tttutsii ), adică corespunde valorii câmpului op (cifrele - ) egal cu , Vdee înseamnă că câmpul este folosit în altă parte De exemplu A-(din mat la linia și coloana er ■ / este definită în partea de jos a figurii Prin urmare, prezența instrucțiunii - sublract la linia și la coloana în partea de jos înseamnă că câmpul tunel (cifrele) C) al instrucțiunii are valoarea , iar câmpul operațional (biții - ) este , bila cu virgulă mobilă este floating pomt (FIPt) în linia coloana este definită în Figura și tamae Iar valoarea BiU/gez este codul operațional pentru cele patru instrucțiuni bltz PD bttzal și bgezal Acest capitol tratează instrucțiunile reprezentate de numele complet • în aldine, iar Capitolul tratează instrucțiunile tot îngroșate, dar prezentate sub formă abreviată Capitolul Instrucțiuni: Limbajul computerului Tabelul Formate de instrucțiuni MIPS Nume câmp Comentarii Dimensiunea câmpului r r p p p p Toate instrucțiunile MIPS au o lungime de de biți R-format op fS rt rd snamt fund Format aritmetic" instrucțiuni !• format op fS rt adreas / immediate (adresă / valoare imediată) Formatul instrucțiunilor de transfer, condițiilor de sărituri și, de asemenea, instrucțiuni folosind semne imediate J- format op target address Format al unei instrucțiuni de ramificare necondiționată În tabel arată toate formatele de instrucțiuni MIPS În tabel Figura prezintă instrucțiunile limbajului de asamblare abordate în acest capitol Partea din instrucțiunile MIPS care nu este prezentată în acest capitol se ocupă în primul rând de numerele aritmetice și reale și va fi discutată în capitolul următor Autotestare Care este intervalul de adrese pentru salturile condiționate în MIPS (K - )? L Adrese între și K - Adrese între și K - Se adresează aproximativ K înainte de tranziție și aproximativ K în jos după Se adresează aproximativ K înainte de tranziție și aproximativ K în jos după II Care este intervalul de adrese pentru salt necondiționat (salt) și salt necondiționat cu referință (salt și hnk) în MIPS (M - K)? Adrese intre si M - Adrese intre si M - Se adresează aproximativ M în sus înainte de tranziție și aproximativ M în jos după aceasta Se adresează aproximativ M în sus înainte de tranziție și aproximativ M în jos după aceasta Salt în orice locație dintr-un bloc de de milioane de adrese atunci când contorul de programe furnizează primii biți Se face un salt către orice locație dintr-un bloc de M de adrese atunci când contorul de program oferă primii biți III Care instrucțiune de limbaj de asamblare M PS corespunde unei instrucțiuni de limbaj de mașină care are valoarea |t? J R-format Concurență și instrucțiuni: sincronizare add eu sil sifcO Opcode nedefinit: nu există nicio instrucțiune validă care să corespundă valorii Concurență și instrucțiuni: Sincronizare Cu sarcini independente, execuția paralelă este mult mai ușoară •> cel mai adesea sarcinile necesită interacțiune Această interacțiune este normală (adică, unele sarcini scriu valori noi care trebuie citite de alte sarcini Pentru a ști că o sarcină a terminat de scris, o altă sarcină poate citi liber datele, sarcinile trebuie să se sincronizeze Dacă nu sunt sincronizat, va exista pericolul apariției unei competiții pentru accesul la date (cursa datelor), în care rezultatul lucrării eogramei se poate modifica în funcție de modul în care vor fi șederii Luați în considerare, de exemplu, analogia din capitolul cu cei opt reporteri care trișează un articol Să presupunem că un reporter, înainte de a scrie concluzia-•d trebuie să citiți toate secțiunile anterioare Prin urmare, trebuie să știe când toți ceilalți reporteri își vor termina secțiunile, astfel încât să nu fie nevoit să-și facă griji că secțiunile nu vor fi schimbate mai târziu Astfel, scrierea și citirea fiecărui timp-Arici trebuie să fie sincronizate astfel încât concluzia să fie în concordanță cu publicațiile secțiunilor anterioare În calculul computerizat, de obicei sunt create mecanisme de sincronizare ■■ oriunde cu subrutine legate de programe la nivel de utilizator, • care depind de utilizarea instrucțiunilor de sincronizare furnizate de hardware În această secțiune, accentul se va pune pe implementarea radiourilor de sincronizare IOCH (blocare) și deblocare (deblocare) Blocuri - deblocarea „ka și |” poate fi aplicată direct în ziua creării zonelor, dar poate funcționa un singur procesor, adică să ofere așa-numitul • *excepție multiplă (excludere reciprocă) și, de asemenea, să fie folosit pentru implementare „•mecanismele sale complexe de sincronizare Sincronizarea într-un sistem multiprocesor necesită prezența opțională a unui set de primitive hardware care permit citirea atomică și modificarea memoriei Calculul se face pe faptul că nimic nu poate interveni între lectură • vacm) plasează în memorie În absența unei astfel de investiții, costul creării principiilor de sincronizare de bază ar fi prea mare • »dei cresc odata cu cresterea numarului de procese Concurență pentru accesul la date (stingerea datelor) Nu există concurență pentru accesul la datele militare dacă două fire diferite accesează aceeași locație de memorie și există cel puțin unul dintre aceste fire de execuție care scrie date, iar accesul este secvențial Capitolul Instrucţiuni: Limbajul computerului Există și alte formulări ale primitivelor hardware subiacente, fiecare dintre acestea oferind capacitatea de a citi și modifica atomic o locație de memorie, împreună cu unele mijloace de raportare că citirea și scrierea s-au făcut atomic În general, arhitecții nu se așteaptă ca utilizatorii să folosească primitive hardware de bază, ei cred că aceste primitive vor fi solicitate de către programatorii de sistem pentru a crea o bibliotecă de sincronizare, ceea ce este un lucru foarte dificil Să începem cu una dintre aceste primitive hardware și să arătăm cum poate fi folosită pentru a construi o primitivă de sincronizare de bază Una dintre acțiunile tipice pentru crearea operațiilor de sincronizare este un schimb atomic (schimb atomic sau yagar atomic), în care valoarea unui registru și valoarea unei celule de memorie sunt schimbate Pentru a vedea cum aceasta poate fi folosită pentru a crea o primitivă de sincronizare de bază, să presupunem că vrem să creăm o blocare simplă în care indică disponibilitate și indică ironie indisponibilă Procesorul încearcă să obțină o blocare schimbând o unitate deținută într-un registru cu o celulă de memorie care se află rar în spatele ecluzei Valoarea returnată de instrucțiunea de schimb va fi egală cu un procesor concurent va cauza defecțiuni frecvente și instrucțiuni de stocare condiționate Avantajul mecanismului de încărcare legat - salvarea condiționată - este că poate fi folosit pentru a crea alte primitive si-fvmizatsin precum compararea și schimbul atomic sau schimbarea atomică Capitolul Instrucţiuni: Limbajul computerului și increment cu unu, care sunt utilizate în unele modele de programare paralelă Aceste primitive folosesc mai multe instrucțiuni între I) și $c Autotestare Când sunt folosite primitive precum încărcarea legată și salvarea condiționată? În cazul în care firele de execuție cooperante ale programelor paralele au nevoie de sincronizare pentru a citi și scrie corect datele partajate Atunci când procesele interacționează pe un sistem uniprocesor au nevoie de sincronizare atunci când citesc și scriu date partajate Emisiune și lansare program Această secțiune discută cei patru pași implicați în transformarea unui program C într-un program rulează pe un computer Pe fig ІЗ arată ierarhia traducerii Unele sisteme combină pașii indicați aici pentru a reduce timpul de traducere, dar iată patru pași succesivi prin care parcurge programul Această secțiune folosește această ierarhie de traducere Compilator Compilatorul convertește un gram C într-un program în limbaj de asamblare, forma simbolică a ceea ce înțelege mașina Programele în limbaje de nivel înalt ocupă mult mai puține linii de cod decât programele în limbaj de asamblare, astfel încât productivitatea programatorului crește semnificativ În , multe sisteme de operare și asamblare au fost scrise în limbaj de asamblare deoarece memoria era mică și compilatoarele erau ineficiente O creștere de de ori a dimensiunii memoriei per cip DRAM a redus problema dimensiunii programului, iar astăzi compilatoarele optimizate sunt capabile să producă programe în limbaj limbaj de asamblare, comparabil ca calitate cu cele create de programatori în acest limbaj Limbaj de asamblare COP FOR LARGE Programe rezultat | Un limbaj simbolic care poate trans-compila prin(yu excels io quality rnu pyroeatsi ■ binar limbaj mașină lucru manual Difuzarea și pornirea unui program programul C Compilator ■«din Ierarhia transnației programului C ma În primul rând, programul aiCO • »o level este compilat într-un program în limbaj de asamblare și apoi asamblat într-un obiect • Limbajul mașinii Juul Pentru a rezolva toate referințele, linkerul combină mai multe • Saule cu rutine de bibliotecă Încărcătorul pune apoi codul mașinii în slotul de memorie corect pentru ca procesorul să execute acel cod Pentru a accelera procesul de traducere, cei doi pași sunt săriți sau combinați Unii compilatori produc o felie Modulele locale, în timp ce altele folosesc încărcătoare de legături care efectuează ultimii pași Pentru a identifica un tip de fișier, UNIX urmează convenția de sufix pentru numele fișierelor Fișierele sursă C se numesc m s fișiere de asamblare - zh v, „іektnye fișiere la o fișiere de proceduri de bibliotecă legate static - x a fișiere dyna - mai multe proceduri de bibliotecă conexe - q v iar executabilele sunt denumite implicit „cot” MS-DOS folosește sufixele C în același scop ASM OBJ, LIB, DLLn EXE asamblator Limbajul de asamblare nu numai că a servit ca interfață pentru programele de nivel înalt, dar ar putea, de asemenea, să gestioneze, ca fiind destul de independente, instrucțiunile general acceptate ale limbajului mașină Echipamentul nu trebuie să aibă o implementare a acestor instrucțiuni; dar apariţia lor în limbaj de asamblare simplifică traducerea – compilarea programelor Astfel de instrucțiuni sunt -mpts pseudo-instrucțiuni După cum am menționat anterior, echipamente IPS se asigură că valoarea ■ evop) este întotdeauna prezentă în registrul irego Acolo este Pseudo instrucțiuni Variații comune ale instrucțiunilor din limbajul de asamblare, adesea tratate ca instrucțiuni complet independente Capitolul Instrucțiuni: Limbajul computerului indiferent de registrul izero folosit, acesta furnizează o valoare zero, iar programatorul nu poate schimba valoarea acestui registru Registrul izero este folosit pentru a crea instrucțiunea de asamblare nove, care copiază conținutul unui registru în altul Astfel, asamblatorul MIPS acceptă această instrucțiune indiferent de absența ei din arhitectura MIPS; rove StO Stl ♦ registrul ROI primește valoarea registrului SC Asamblatorul transformă această instrucțiune în limbajul de asamblare în echivalentul în limbajul mașinii al următoarei instrucțiuni: add StO Izero Stl f registrul ItO este setat la ♦ valoarea registrului Stl Asamblatorul MIPS transformă, de asemenea, instrucțiunea de salt „dacă mai puțin decât”, Olt (branch op lessthan), în două instrucțiuni, slt și üne, menționate în exercițiul din Secțiunea Alte exemple includ ogt, bge și no instructions Asamblatorul transformă, de asemenea, salturile condiționate către adrese care sunt prea îndepărtate în instrucțiuni pentru sărituri condiționate și necondiționate După cum sa menționat, asamblatorul MIPS permite încărcarea constantelor de de biți într-un registru, în ciuda limitei de biți impuse instrucțiunilor care folosesc valori imediate În general, pseudoinstrucțiunile îmbogățesc setul de instrucțiuni în limbajul de asamblare MIPS în comparație cu acel set pentru care există o implementare hardware Singurul cost al acestei îmbogățiri este rezervarea unui singur registru Sa pentru utilizare de către assembler Dacă intenționați să creați programe în assembler apoi, pentru a vă simplifica sarcinile, utilizați pseudo-instrucțiuni Dar pentru a înțelege arhitectura MIPS și a obține cea mai bună performanță, trebuie să studiați instrucțiunile MIPS reale prezentate în Tabelul și în fig Asamblatorii acceptă numere cu baze diferite Pe lângă binare și zecimale, de obicei acceptă numere în bază, ceea ce le permite să fie reprezentate într-o formă mai concisă decât numerele în baza și este ușor să le convertiți într-o combinație binară Asamblatorul MIPS folosește numere hexazecimale Aceste proprietăți fac limbajul mai convenabil, dar sarcina principală a asamblatorului este de a asambla programul în codul mașinii Un asamblator transformă un program în limbaj de asamblare într-un fișier obiect, care este o combinație de instrucțiuni în limbajul mașinii, date și informațiile necesare pentru a plasa corect instrucțiunile în memorie Pentru a crea o versiune binară a fiecărei instrucțiuni pe care le am într-un program în limbaj de asamblare, programul de asamblare trebuie să determine adresele corespunzătoare tuturor etichetelor Asamblatorul ține evidența etichetelor utilizate în sărituri și instrucțiuni de transfer de date într-un tabel de nume Este ușor de ghicit că tabelul constă din perechi de denumiri și adrese Un fișier obiect pentru sisteme UNIX constă de obicei din șase părți distincte: Tabel cu numele etichetelor corespunzătoare adreselor * Truc Obiectiv/oFish în care descrierea cuvintelor din memorie și care au aceeași dimensiune și poziție cu toate celelalte părți ale acestui fișier Difuzarea și începerea unui program • Segment de text care conține codul limbajului mașinii • Segmentul de date statice care contine datele plasate pentru functionarea programului (UNIX permite programelor să utilizeze atât date statice care sunt alocate în întregul program, cât și date dinamice care pot crește și se micșorează pe măsură ce programul are nevoie - vezi Figura ) • Informații de configurare care identifică instrucțiuni și cuvinte de date dependente de adresele absolute atunci când programul este încărcat în memorie • Tabel de nume, care conține etichetele rămase, nedefinite și ca link-uri externe • Informații de depanare, care conține o scurtă descriere a modului în care modulele au fost compilate, astfel încât depanatorul să poată lega instrucțiunile mașinii la fișierele sursă C și să facă structura de date lizibilă Următoarea subsecțiune arată cum sunt atașate subrutinele ** Munții au fost deja procesați de un program de asamblare, cum ar fi bibliotecile de biblioteci linker Pe baza a tot ceea ce a fost prezentat anterior, se presupune că o singură imputare într-o singură linie a unei proceduri va necesita compilarea și asamblarea întregului program Retraducerea completă duce la irosirea inutilă a resurselor computerului Retraducerea nu este necesară, în special, pentru procedurile standard de bibliotecă, deoarece programatorul va compila ■ „proceduri de jocuri de noroc care, prin definiție, nu se schimbă aproape niciodată O alternativă este să compilați fiecare procedură în mod independent, astfel încât o singură schimbare de linie să necesite compilare asamblați o singură procedură Pentru implementarea sa, este nevoie de un nou program t dark, care se numește linker, sau linker Acest program „unește” într-un singur întreg toate programele în limbajul mașinii, ■ Multe au fost traduse de către asamblator independent unul de celălalt Linkerul funcționează în trei pași: Plasează codul și datele modulelor în memorie în formă simbolică Specifică adresele de date și etichetele de instrucțiuni I Repară atât legăturile interne, cât și cele externe Pentru a rezolva toate nesigurerile mele- ■ Linker-ul utilizează un instrument de configurare şi un tabel de nume care • sunt prezente în fiecare modul obiect Asemenea referințe ■ sunt în declarațiile condiționale și beeucondiționale despre tranziție și în adresele de date, adică munca programului este în multe privințe similară cu munca Linker (IIpkvg) Denumit și editor de legături (link edrtor) Un program de sistem care combină programe compilate independent în limbajul mașinii într-un fișier executabil și rezolvă toate etichetele nedefinite Capitolul Instrucţiuni: Limbajul computerului Executabil Un program funcțional în format de fișier obiect care nu conține referințe ilegale Poate conține un tabel de nume și informații de depanare „Executabile în dungi” nu conține astfel de informații Informațiile de configurare pot fi incluse pentru încărcător editor: găsește adrese vechi și le înlocuiește cu altele noi Procesul de editare este cel care a dat programului numele „Link Editor” sau pe scurt, linkerul Linkerul este util pentru subiecte că repararea codului este mult mai rapidă decât recompilarea și reasamblarea acestuia Dacă toate referințele externe sunt permise, linker-ul determină locațiile de memorie pentru fiecare modul Reamintim convenția MIPS pentru alocarea memoriei pentru programe și date, care a fost prezentată în Fig Deoarece fișierele au fost asamblate izolat unul de celălalt, este posibil ca asamblatorul să nu știe unde trebuie plasate instrucțiunile și datele unui modul în raport cu alte module Când linkerul plasează un modul în memorie, toate referințele absolute, adică adresele de memorie care nu sunt asociate cu o valoare de registru, trebuie modificate pentru a reflecta locația reală a modulului Linkerul creează un executabil care poate fi rulat pe un computer De obicei, acest fișier are același format ca un fișier obiect, cu excepția faptului că nu conține referințe nerezolvate Este posibil să legați parțial fișiere, cum ar fi fișierele de procedură de bibliotecă care au încă adrese nerezolvate și, prin urmare, rămân fișiere obiect Exercitiul Conectarea fișierelor obiect Trebuie să adunați două prezentat mai jos, fișierul obiect Ar trebui să afișați adresele actualizate ale primelor instrucțiuni ale executabilului cu drepturi depline Instrucțiunile sunt afișate în limbaj de asamblare doar pentru a face exercițiul mai clar; in realitate, instructiunile vor fi reprezentate prin numere Notă că în fișierele obiect avem alocate adrese și simboluri care trebuie actualizate în timpul legăturii: instrucțiuni care se referă la adresele de procedură * și și instrucțiuni care se referă la adresele de date X și ѵ Antetul fișierului obiect Nume Procedura A Dimensiunea textului , Dimensiunea datelor " ■wir Segment de text Adresă Instrucțiune IwSaO, O(Sgp) jl Segmentul de date (XI *»• Difuzarea și pornirea unui program „■informații încorporate Adresă Tip instrucțiune Dependență lw X jal B „•name blitz Etichetă Adresă X- in - Nume Procedura B Mărimea textului Dimensiunea datelor , Segment de linie Adresă Instrucțiune swSal O($qp) jl • în" Segment de date (Y) informații de configurare Adresă Tip instrucțiune Dependență SWV jal A •nume bloc Etichetă Adresă Y- ȘI - ■••■edurs și trebuie să găsiți adresa variabilei etichetate și pentru a o pune în procedura de boot și pentru a găsi adresa procedurii B pentru a o pune în instrucțiunea jal Jiaedura B are nevoie de adresa unei variabile etichetate * salvați pentru instrucțiuni ■ si la adresa procedurii A pentru instructia sa jal Conform figurii , segmentul de text SHMg este preluat de la adresa ,, iar segmentul de date este de la adresa G Textul procedurii A -e' tsatsya la prima adresă, iar datele sale - la al doilea |ț octeți, voi elimina adresa de pornire pentru textul procedurii B va fi |( iar datele sale vor fi ■ „stă i de la adresa ,, Antetul fișierului executabil Dimensiunea textului Dimensiunea datelor , „■alovy segment Adresă Instrucţiune Capitolul Instrucțiuni: Limbajul computerului Antetul fișierului executabil , lw $a ($u" , ial ,' swSai (Sgp) jl SRL Segment de date Adresă , (X) (Y> Linker-ul va actualiza acum câmpurile * observarea a dus la utilizarea ver i DLL-uri cu lazy linking Fziedur unde fiecare procedură se numea „cum o numim Ca multe alte inovații din studiu • În m orii, această tehnică se bazează pe nivelul de adresare indirectă Această tehnologie în - este prezentată în fig Totul începe cu proceduri non-in-the-box la sfârșitul programului KOTO- Încărcător Zya (încărcător) Un program de sistem care plasează un program obiect ■ în memoria principală, astfel încât să fie gata de execuţie Biblioteci de legături dinamice (OH ) Proceduri de bibliotecă asociate programului în timpul executării acestuia Capitolul Instrucțiuni: Limbajul computerului Acestea se numesc proceduri fictive și există o intrare pentru fiecare procedură non-locală Fiecare dintre aceste intrări fictive conține un salt indirect Prima dată când este apelată o procedură de bibliotecă, programul apelează o intrare inactivă și urmează un salt indirect Acest salt indică un cod care plasează un număr într-un registru pentru a identifica procedura de bibliotecă dorită, apoi trece la încărcătorul-linker dinamic Acest linker-loader găsește procedura dorită, reconfigurează toate referințele din ea și schimbă adresa într-un salt indirect, plasând acolo un pointer către această procedură Apoi trece controlul procedurii Când procedura și-a încheiat activitatea, aceasta revine controlul la locul inițial al apelului Ulterior, apelarea procedurii bibliotecii va trece direct la procedură fără nicio redirecționare suplimentară În general, DLL-urile necesită spațiu suplimentar pentru informațiile necesare pentru legarea dinamică, dar nu necesită copierea sau legarea bibliotecilor întregi Cu un apel de procedură nervoasă, trebuie să suportăm costuri semnificative, dar atunci această tranziție indirectă va rămâne singura mai târziu De menționat că întoarcerea de la bibliotecă nu necesită costuri suplimentare Sistemul de operare Windows al Microsoft se bazează în mare măsură pe biblioteci de legături dinamice și sunt, de asemenea, utilizate în mod implicit atunci când rulează proi |>amm pe sisteme UNIX moderne Instrucțiuni dintr-un kit conceput pentru a interpreta Zava-lrograms Mașină virtuală Java (JVM) Un program care interpretează codul de cumpărare Java Rularea programelor Java Toata lumea ceea ce s-a discutat mai devreme a vizat modelul tradițional de execuție, care se baza pe timpul de execuție mai scurt al unui program conceput pentru o anumită arhitectură de set de instrucțiuni, sau chiar pentru o anumită implementare a acestei arhitecturi Programele Java pot fi, desigur, executate exact în la fel ca programele din C Dar limbajul Java a fost conceput cu alte scopuri în minte Unul dintre aceste obiective a fost să ruleze programe în mod fiabil pe orice computer, în ciuda execuției lor mai lente Pe fig Figura prezintă pașii tipici de semnalizare și execuție a programului M HKeJava În loc să compilați acest program în limbajul de asamblare al computerului țintă Java îl compilează mai întâi în instrucțiuni care sunt mai ușor de interpretat: setul de instrucțiuni Java bytecode Acest set de instrucțiuni a fost conceput pentru a fi mai aproape de limbajul Java și pentru a simplifica pasul de compilare De fapt, nu se efectuează nicio optimizare în această etapă, la fel ca și compilatorul C Compilatorul Java verifică tipul de date și generează operațiunile corecte pentru fiecare tip Programele Java sunt distribuite în versiunea binară a acestui bytecode Codul octet Java poate fi executat de un interpret software numit Java Virtual Machine (JVM) Un interpret este un program care emu- Difuzarea și începerea unui program ■ arhitectura ruyuschaya a setului de instrucțiuni De exemplu Emulatorul MIPS folosit în scrierea acestei cărți este un interpret Nu este necesar un pap de traducere separat, pentru că fie traducerea este atât de simplă încât wampilatorul ștampilă adresele sau JVM-ul găsește aceste adrese în timpul execuției programului a) primul (XI proceduri Procedura DC-L ) proceduri DCL ulterioare Bibliotecă de legături dinamice cu legare la procedură leneșă: ) pașii de căutare a unei proceduri, reconectarea ei și legarea ei = • apelurile ulterioare sunt sărite Așa cum se va arăta în Capitolul sistem de operare - „nu puteți evita copierea procedurii dorite prin reconectarea acesteia folosind un management al memoriei virtuale sistem Partea pozitivă a interpretării este portabilitatea Apariția software-ului pentru mașini virtuale Java a însemnat că mulți oameni au obținut acces la construirea și rularea programelor Java aproape imediat după introducerea limbajului Astăzi, există mașini virtuale Java pe milioane de dispozitive, de la telefoane mobile la browsere de internet Dezavantajul interpretării este performanța mai scăzută Progresele neașteptate în performanță în anii și au făcut ca inscriptorii să fie acceptabili pentru multe aplicații importante, dar aproape Capitolul Instrucțiuni: Limbajul computerului încetinire de zece ori comparativ cu compilat în mod tradițional! Programele C fac limbajul Java neatractiv pentru unele aplicații Orez Ierarhiile* ale traseelor programului Jeva În primul rând, programul Java este compilat în versiunea de cod de octet Java cu adresele determinate de compilator După aceea, programul Java este gata să ruleze * într-un interpret pe care îl numești* virtual! Mașină Java IJVM) Această mașină virtuală, în timpul execuției programului, este asociată cu metodele necesare * Bibliotecă Java Pentru a obține o performanță mai bună, JVM-ul poate apela un compilator JIT care să compileze selectiv metode În instrucțiunile adecvate în limbajul mașinii ale mașinii pe care se află alergare Pentru a menține portabilitatea și a îmbunătăți viteza de execuție, următorul pas în dezvoltarea Java au fost compilatoarele care au tradus programul pe măsură ce se executa Astfel de compilatoare JIT ("Just In Time", adică "în timp util") examinează de obicei programul care rulează pentru a găsi cele mai populare metode din acesta și apoi le compila în setul de instrucțiuni al computerului pe care se află mașina virtuală alergare Partea compilată este salvată pentru următoarea rulare a programului, astfel încât să poată rula și mai rapid cu fiecare rulare Acest echilibru de interpretare și compilare evoluează de-a lungul timpului, așa că rularea programelor Java fură frecvent un pic de interpretare Pe măsură ce viteza computerelor crește, crescând astfel capacitățile compilatoarelor și pe măsură ce cercetătorii inventează modalități din ce în ce mai bune de a compila programe Java din mers, diferența de performanță dintre Java și I sau C++ se micșorează Autotestare Ce avantaje ale unui interpret față de un traducător credeți că au fost cele mai importante pentru dezvoltatorii Java? compilator EGT Un nume dat adesea unui compilator care funcționează în timpul execuției programului, traducând segmentul de cod interpretat în codul mașină al computerului pe care rulează t Ușurința de a crea un interpret Sistem de mesaje mai detaliat w St (Stl) ♦ registrul StO (tewp) - v(k] ♦ registrul St - w(k ♦ ] І link la următorul element pasiv ѵ sw St O(Stl> sw StO (Stl) ♦ v[k] • registrul St ♦ v[k*l] - registrul StO (temp) Lista ieșire din procedură jr Sra * reveni la procedura de apelare Combinând tot ceea ce s-a considerat anterior în exercițiul procedura de sortare Pentru a putea aprecia cu adevărat rigoarea programării cu asamblare, ne vom uita la un al doilea exemplu mai lung De data aceasta, vom introduce o rutină care numește rutina de schimb Programul creat sortează o matrice de numere întregi folosind sortarea cu bule sau sortarea -'•nume care este una dintre cele mai simple și poate cele mai rapide dintre fortificații Lista arată versiunea C a programului Lista Procedura C care sortează o matrice ѵ • ■ sortare (int ѵ(] int n) lotul , j pentru ( - i v(j ♦ ): J - ) ( swap(vJ): eu Selectarea cazului pentru procedura de sortare Pentru cei doi parametri de sortare, v și n, se alocă registrele Ia și Sal, re-str $s este alocat variabilei , iar registrul Ssl este alocat variabilei j Codul corpului al procedurii de sortare Corpul procedurii este format din două bucle for imbricate și un apel la procedura de swap, care include parametrii Să ne uităm la codul de la periferie la centru Primul pas de traducere va fi primul pentru pictogramă: •Ж ( • n Instrucțiunea „set if less than” (set op „than”) setează valoarea registrului StO la dacă s$ Q Jal, ramura condiționată va fi luată dacă valoarea registrului BUT este zero Toate acestea necesită două instrucțiuni: forltst:SltStO jso Jal registru StO - dacă JsO > Sal (Jîn) bec StO jtero exitl # sari si nu exitl dacă JsO Jal (igp) La sfârșitul buclei, există un simplu salt înapoi la verificarea stării buclei: j forltst *leoeho" pentru a testa starea buclei exterioare exitl: Schematic, codul pentru prima buclă for arată astfel: că JsO Szero forltst:Jlt StO JsO Sal oeq STO Izero exitl # - * înregistrează StO • dacă JsO > Jal (i>n) merge la exitl dacă JsO Jal (Un) (corpul primei bucle for) addi JsO JsO j forltst exitl - trecerea la verificarea stării buclei Gata! (Exercițiile explorează cum să scrieți cel mai rapid cod pentru bucle ca acesta ) A doua buclă for are următoarea formă în C: pentru (j - - J >- U v(J] > v[J ♦ ) J - ) { Partea de inițializare a acestei bucle necesită, de asemenea, o instrucțiune: addi Ssl jso - j - - Scăderea valorii lui j cu unu la sfârșitul buclei necesită și o instrucțiune: adi SSL SSL - j -• Testul de stare a buclei constă din două părți Bucla iese ■de trei ori oricare dintre condiții nu este îndeplinită, așa că prima verificare ar trebui să aibă ca rezultat ieșirea buclei dacă eșuează (j v[j ♦ ) nu este adevărată sau dacă este îndeplinită condiția v[j] v[JJ prin urmare, aceste două distrugeri ale verificării ieșirii buclei vor lua următoarea formă: li JtO Jt $t i înregistrez JtO - dacă I > FROM -q JtO Jzero exit # sari la ex t dacă I > DE LA Ultima linie a buclei conține o instrucțiune pentru a sări înapoi la verificarea -thony a buclei interioare for tst # sări la verificarea condiționată a buclei interioare Punând toate piesele împreună, obținem următoarea bază pentru a doua buclă for; add Jsl JsO - X t$t Jltl StO Jsl txre JtO tzero exit sil Jtl Jsl adaugă I Jao Stl b iz (St ) lw Jt (H ) slt И sta DIN beq И Jzero ex»t # j - i - # registru И • dacă Ssl Jt # sări la exp dacă St > St (corpul secundei pentru buclă) addl jsl SSL - J pentruZtst # trecerea la verificarea stării buclei interioare Apelarea unei proceduri din sortare • tag-ul principal va fi crearea corpului celei de-a doua bucle for: ur ): Apelarea procedurii de schimb pare destul de simplă: seva trecerea parametrilor pentru sortare (i ne StO Szero exit # la exit dacă Ssl rltst # mergeți la testul condiției buclei exterioare Înregistrați recuperarea exitl spre SsO O(Ssp) f Restaurare din stiva JsO )n Ssl (Ssp) ♦ Restaurare din stiva Ssl I și Ss (Ssp) ♦ Restaurare din stiva Ss și Ss (Ssp) » Restaurare din stiva Ss Ia» Sra ($sp) # Restaurare din stivă Sra a ] la zero, trebuie mai întâi să obțineți adresa acestui element Să începem prin înmulțirea i cu pentru a obține adresa de octeți: loopl sil Stl PO t Stl - • Deoarece adresa de pornire a matricei este într-un registru, trebuie să folosim a da adăugați-l la index pentru a obține adresa lui argau[i): a > i Rd ,, ror INE Rd = Rsl & -(Rs ) bic Scădere înapoi Rd = Rs - Rsl rsb, rec Suport pentru adăugarea de numere întregi cu mai multe cuvinte CarryOul, Rd » Rd • Rsl ♦ Old-CarryOvl ades — Suport pentru CarryOut, Rd = Rd - Rsl * Old-CarryOui sbcs ARM are, de asemenea, instrucțiuni pentru salvarea unor grupuri de registre numite blocuri de jocuri și salvări Sub controlul măștii de biți din interiorul instrucțiunilor, oricare dintre cele registre poate fi încărcat din sau stocat în memorie cu o singură instrucțiune Aceste instrucțiuni pot salva și restaura registre la intrarea și la întoarcerea dintr-o procedură Aceste instrucțiuni pot fi, de asemenea, folosite pentru copierea bloc a memoriei, iar astăzi copiarea bloc capătă mai multă greutate atunci când sunt utilizate chemând Capitolul Instrucțiuni: Limbajul computerului Hardware real: instrucțiuni x Frumusețea este întotdeauna în ochii fermecatei Margaret Ві/ іъф Hungerford Uneori, dezvoltatorii de seturi de instrucțiuni oferă capacitatea de a implementa operațiuni mai puternice decât cele disponibile în ARM și MIPS Scopul principal este de a reduce numărul de instrucțiuni pe care le execută un program Pericolul unei astfel de reduceri se poate manifesta în prețul pe care trebuie să-l plătească pentru o astfel de simplificare și în creșterea timpului alocat executării programului, deoarece instrucțiunile sunt mai lente Această încetinire poate fi rezultatul unei viteze mai mici de ceas sau al mai multor cicluri de ceas în comparație cu o secvență mai puțin complexă de instrucțiuni Astfel, complicația operațiilor este plină de consecințe periculoase Pentru a evita astfel de probleme, dezvoltatorii au luat calea simplificării instrucțiunilor Toate dezavantajele complicației sunt prezentate în secțiunea Dezvoltarea familiei Intel x În , ARM și MIPS au fost proiectele unor grupuri mici separate; părți ale acestor arhitecturi se potrivesc bine împreună, iar descrierea întregii arhitecturi nu a ocupat mult spațiu Ce nu se poate spune despre arhitectura x care este produsul muncii mai multor grupuri independente care l-au îmbunătățit de peste de ani, adăugând noi funcții la setul original de instrucțiuni Arhitectura x a trecut prin următoarele etape importante de dezvoltare: ♦ A fost introdusă arhitectura Intel Era o extensie compatibilă cu limbajul de asamblare a arhitecturii de succes cu microprocesor Intel pe opt biți Microprocesorul avea o arhitectură de biți și toate registrele sale interne aveau o valoare de biți Spre deosebire de M PS, aceste registre au fost folosite în scopuri speciale și, prin urmare, arhitectura nu a fost considerată un registru de uz general (GPR) arhitectură ♦ A fost introdus coprocesorul în virgulă mobilă Intel Arhitectura a fost extinsă cu aproximativ de instrucțiuni pentru a trata astfel de numere În loc să folosească registre, această extensie s-a bazat pe stivă (vezi secțiunea ) General Purpose Register (GPA) Un registru care poate fi utilizat pentru adrese sau pentru date cu aproape orice instrucțiune ♦ : Microprocesorul a extins arhitectura prin creșterea spațiului de adrese la de biți cu un management mai avansat al memoriei și un model de mod protejat |> (vezi Capitolul ) precum și adăugarea de noi instrucțiuni Hardware real: instrucțiuni x îmbunătățind setul lor comun și permițându-vă să lucrați într-un mod protejat : Microprocesorul a extins arhitectura la de biți Pe lângă arhitectura pe de biți cu registre de de biți și spațiu de adrese pe de biți, arhitecturii au fost adăugate noi moduri de adresare și operațiuni suplimentare Instrucțiunile adăugate au adus microprocesorul mai aproape de mașinile cu registre de uz general Microprocesorul a adăugat, de asemenea, suport de paginare la adresarea segmentelor (vezi Capitolul ) Ca și microprocesorul , descendentul său avea un mod de executare a programelor concepute pentru procesorul care nu necesita schimbarea acestora - : Microprocesoarele ulterioare — în , Pentium în și Pentium Pro în — aveau ca scop obținerea de performanțe mai mari și aveau doar patru instrucțiuni noi în setul de vizualizare al utilizatorului: trei pentru a ajuta la multiprocesare (vezi capitolul ) și o instrucțiune de mutare condiționată a datelor : După lansarea Pentium și Pentium Pro, Intel a anunțat că va extinde arhitectura Pentium și Pentium Pro cu instrucțiuni MMX (Mult' Media Extensions) Acest nou set de de instrucțiuni folosește o stivă în virgulă mobilă pentru a accelera aplicațiile multimedia și de comunicații Instrucțiunile MMX operează în mod obișnuit simultan pe mai multe elemente de date scurte, urmând arhitectura cu instrucțiune unică, date multiple (SIMD) (vezi Capitolul ) Pentium II nu a introdus instrucțiuni noi : Intel a adăugat încă de instrucțiuni ca parte a microprocesorului Pentium III, numit SSF (Streaming SIMD Extensions) Actualizarea principală a fost adăugarea a opt registre separate, dublându-le lățimea la de biți și tip de date cu o singură precizie în virgulă mobilă Prin urmare, patru operații în virgulă mobilă pe de biți ar putea fi efectuate în paralel Pentru a îmbunătăți performanța memoriei, suita SSE a început să includă instrucțiuni de preluare prealabilă a memoriei cache și instrucțiuni de stocare în flux care ocolesc memoria cache și scriu direct în memorie : Intel a adăugat încă de instrucțiuni, de data aceasta numite SSE A fost introdus un nou tip de date pentru aritmetica cu dublă precizie, permițând efectuarea în paralel a perechilor de operații în virgulă mobilă pe de biți Aproape toate aceste de instrucțiuni erau versiuni ale instrucțiunilor MMX și SSE existente care procesează date pe de biți în paralel utilizați mai multe operațiuni multimedia, dar, de asemenea, a dat compilatorului un alt Capitolul Instrucțiuni: Limbajul computerului Destinația datelor pentru operațiuni în virgulă mobilă în loc de arhitectura stivă unică Compilatorii au opțiunea de opt indici în virgulă mobilă SSE-pei, similare celor patru găsite pe alte computere Aceste modificări au îmbunătățit performanța în virgulă mobilă pe Pentium , primul microprocesor care a inclus instrucțiuni SSE ♦ : De data aceasta, arhitectura x a fost extinsă de o companie neafiliată Intel AMD a introdus un set de extensii arhitecturale menite să mărească spațiul de adrese de la de biți la de biți Similar cu tranziția de la spațiul de adrese de la de biți în , care a fost asociată cu apariția microprocesorului , pe AMD toate registrele au fost extinse la de biți Numărul de registre a fost, de asemenea, extins la iar numărul de registre SSE pe de biți a fost extins la Principala schimbare în arhitectura setului de instrucțiuni s-a datorat adăugării unui nou, așa-numit mod lung (mod Iog}) , care a redefinit extensia tuturor instrucțiunilor x pentru a funcționa cu adrese și date pe de biți Pentru a putea accesa mai multe registre, la instrucțiuni a fost adăugat un nou prefix În funcție de metoda de calcul, modul lung a adăugat și la noi instrumente și mâini și a eliminat utilizarea a de instrucțiuni vechi AMD a păstrat în continuare un mod identic cu cel al x (modul moștenit), plus un mod care restricționa programele utilizatorului la setul x , dar permitea sistemului de operare să utilizeze setul AMD (modul de compatibilitate) ) Aceste moduri au făcut trecerea la adresarea pe de biți mai atractivă și în comparație cu utilizarea arhitecturii HP/Intel IA- ♦ : Intel renunță și adoptă tehnologia AMD , dându-i un nou nume: Extended Memory Technology - Extended Method Technology (EM Ț) Principala diferență a fost că Intel a adăugat o instrucțiune de comparare și schimbare atomică pe de biți, care probabil lipsea din AMD În același timp, Intel a introdus o nouă generație de extensii multimedia Au fost adăugate instrucțiuni la SSE pentru a sprijini operații aritmetice complexe, grafice pe rețele de structuri de codificare video, conversii în virgulă mobilă și sincronizare a fluxului (vezi secțiunea ) AMD a oferit SSE în cipurile lor următoare și, desigur, a adăugat instrucțiunile de schimb atomic lipsă la tehnologia sa AMD pentru a asigura compatibilitatea binară cu produsele Intel ♦ : Intel a introdus de instrucțiuni noi ca parte a extensiei setului de instrucțiuni SSE Aceste extensii au efectuat astfel de operațiuni noi precum obținerea sumei principalelor diferențe, obținerea de produse punct pentru matrice de structuri, extinderea semnului sau nul a datelor cu un număr mic Hardware real: Instrucțiuni xv ratryon la cifre nete mai mari, POPCNT (număr de populație)', etc S-a adăugat, de asemenea, suport pentru mașini virtuale (vezi Capitolul ) ♦ : AMD a introdus de instrucțiuni sub SSE , inclusiv de instrucțiuni de seturi de bază, cu adăugarea acelorași instrucțiuni cu trei operanzi ca și r MIPS ♦ : Intel a introdus Advanced Vector Extension, care a extins registrul SSE de la de biți la de biți, redefinind aproximativ de instrucțiuni și adăugând de instrucțiuni noi Această poveste ilustrează impactul „cătușelor de aur” ale compatibilității ■ familia x , întrucât software-ul existent a jucat un rol prea important în fiecare *această îmbunătățire, nepermițând ca performanța acestuia să fie compromisă din cauza unor schimbări arhitecturale semnificative Dacă urmărim întreaga perioadă de existență a familiei x apoi, în medie, arhitectura s-a extins cu un ritm de o instrucțiune pe lună! Și nu contează că familia x nu a fost solicitată în domeniul înalt profesional, trebuie avut în vedere că în computerele desktop există mult mai mulți reprezentanți ai arhitecturii acestei familii decât reprezentanți ai oricărei alte arhitecturi și ai acestora numărul crește în fiecare an cu peste de milioane de exemplare Cu toate acestea, o istorie atât de întortocheată a dezvoltării arhitecturii sale a dus la faptul că este dificil de explicat și imposibil de iubit Pregătește-te pentru informații noi! Nu încercați să citiți această secțiune cu așteptarea că va trebui să scrieți programe x ; scopul nostru este pur și simplu să ne familiarizăm cu punctele forte și punctele slabe ale celei mai comune arhitecturi desktop În loc să afișați setul complet de instrucțiuni pe și de biți ■ În această secțiune, ne vom concentra asupra subsetului său de de biți, care a apărut pentru prima dată pe microprocesorul ca parte a arhitecturii utilizate astăzi În primul rând, vor fi luate în considerare registrele și modurile de adresare, apoi vom trece la operațiile cu numere întregi și vom încheia revizuirea examinând ordinea de codificare a instrucțiunilor Registre și moduri de adresare a datelor x Registrele microprocesorului reflectă evoluția setului de instrucțiuni (Fig ) În microprocesorul , toate registrele de biți au fost extinse la de biți (cu excepția registrelor de segment) și a fost adăugat un prefix E la numele lor, indicând că aceasta este versiunea pe de biți Cel mai adesea, ne vom referi la ele ca registre de uz general - GPR (general-purpose Operația „număr populație” este un nume propriu pentru operația de calculare a greutății Hamming pentru un șir de biți Numărarea efectivă a sumei cifrelor sale (sau, echivalent, a numărului de caractere individuale) - At chech ed Capitolul Instrucțiuni pentru limbajul computerului rvgisters) Microprocesorul conține un total de opt GPR-uri Aceasta înseamnă că programele MIPS pot folosi de ori, iar programele ARM de ori mai multe registre În tabel prezintă instrucțiuni aritmetice, logice și de transfer de date Aceste instrucțiuni sunt cu doi operanzi Au două caracteristici importante Pentru instrucțiunile aritmetice și logice x , un singur operand trebuie să acționeze atât ca sursă, cât și ca destinație, în timp ce AR M și MIPS necesită registre separate pentru sursă și destinație a fi schimbat A doua caracteristică este că unul dintre operanzi trebuie să fie în memorie Astfel, spre deosebire de ARM și MIPS, practic fiecare instrucțiune trebuie să aibă un operand în memorie Modurile de adresare a memoriei, detaliate mai jos, oferă două dimensiuni de adrese în cadrul instrucțiunilor Acest așa-numit offset poate avea o lățime de sau de biți Deși orice mod de adresare poate fi utilizat pentru operanzi de memorie, există restricții privind alegerea registrelor care pot fi utilizate într-un mod dat În tabel arată modurile de adresare x și indică acele registre de uz general care nu pot fi utilizate în fiecare dintre moduri, precum și aceea cum puteți obține același rezultat folosind instrucțiunile MIPS Operații cu numere întregi x Microprocesorul oferă protecție atât pentru tipurile secrete de biți (octeți), cât și pentru tipurile secrete xii de biți (cuvânt) Microprocesorul adaugă adrese pe de biți și date (cuvinte duble) arhitecturii x (AMD scapă de adresele și datele pe de biți, numite cuvinte quad; dar în această secțiune, ne vom menține la ceea ce este în microprocesorul ) Diferențele de tip de date se aplică operațiilor de registru, precum și acceselor de memorie Tabelul Tipuri de instrucțiuni aritmetice, logice și de transfer de date Toate combinațiile afișate sunt disponibile pe x Singura limitare este că nu există un mod memorie la memorie Datele imediate pot avea o lungime de , sau de biți; oricare dintre cele registre superioare prezentate în fig (registrele EIP sau EFLAGS nu pot fi utilizate) Tip de operand sursă-destinație Al doilea operand sursă Înregistrare Înregistrare Înregistrare valoare imediată Înregistrați memoria Registrul de memorie Memorie Valoare imediată Hardware real: instrucțiuni x Numele Islolyuvaiye Vedere Set de registre de microprocesor Prin denumirea celor registre de sus din acest microprocesor, acestea au fost extinse la de biți și au avut, de asemenea, posibilitatea de a fi utilizate ca registre de uz general Aproape fiecare operațiune afectează atât datele de biți, cât și cele mai mari Această dimensiune este determinată de modul, care poate fi pe biți sau pe de biți Desigur, unele programe trebuie să lucreze cu date în toate cele trei dimensiuni, astfel încât arhitectura oferă o modalitate convenabilă de a specifica fiecare versiune fără a crește semnificativ dimensiunea codului S-a decis că majoritatea programelor erau dominate fie de biți sau date pe de biți, deci este logic să furnizați o dimensiune implicită mai mare Această dimensiune implicită a datelor este setată într-unul dintre biții din registrul segmentului de cod Pentru a înlocui dimensiunea implicită a datelor, instrucțiunii este atașat un prefix de biți spunând aparatului să folosească o dimensiune mai mare pentru această instrucțiune Capitolul Instrucțiuni: Limbajul computerului Tabelul Moduri de adresare x pe de biți cu restricții de registru și coduri MIPS echivalente Modul de adresare -base plus scalabil index*, care nu este disponibil în AAM sau MIPS, este inclus pentru a evita înmulțirea cu (factor de scalare ) și transformarea unui index dintr-un registru într-o adresă de octeți (vezi Listările , și ) Factorul de scară este utilizat pentru datele pe biți, iar factorul de scară este utilizat pentru datele pe de biți Un factor de scalare de înseamnă că adresa nu este scalată Dacă offset-ul în al doilea sau al patrulea mod este mai mare de biți, atunci echivalentul MIPS al modului va avea nevoie de două instrucțiuni suplimentare: să încărcați primii biți ai offset și adăugați pentru a adăuga adresa de sus la registrul de bază Ssl (Intel a dat ceea ce numește modul de adresare de bază două nume diferite - bază și index - dar sunt în esență același lucru și vom alterna între aceste nume aici) Mod Descriere Limitare Echivalent MIPS Indirect - Adresa de înregistrare este în registru Nu numai ESP și EѲP lw SsOO(Sst) Mod folosind baza cu offset B sau de biți Adresă conținută în registrul de bază plus offset Numai non-ESP IwSsO lOO(Ssl) • mp Ramura necondiționată - offset B sau biți caii Frame sub-pray call - biți offset, adresa de returnare împinsă pe stivă rol Scoateți adresa de retur din stivă și săriți la acea adresă Ioor Wraparound — ECX decrement, salt la EіP ♦ B-bit shift dacă ECX » Transfer de date Mutarea datelor între registre sau între registru și memorie toge Deplasarea între două registre sau între un registru și memorie pusn, pop Împingeți operandul sursă pe stivă, introduceți operandul din partea de sus a stivei într-un registru Ies Încărcați ES și unul dintre registrele cu scop general (GPR) din memorie Aritmetică, logică Operații aritmetice și logice cu ajutorul registrelor add sub Adăugați sursa la destinație, scădeți sursa din destinație, formatul de înregistrare în memorie Hardware real: instrucțiuni hvb Semnificația instrucțiunii vcr Compara sursa și destinația; format de înregistrare în memorie m ilw rcr Shift la stânga, logic deplasare la dreapta; rotatie la dreapta cu setarea codului conditiei sari (transfer) prin completare Conversia unui octet din cei opt biți din dreapta EAX într-un cuvânt de biți din partea dreaptă a EAX m ȘI logic peste sursă și destinație, setarea codurilor de stare •cu dec Increment de destinație, Decrement de destinație SAU logic al acestora format SAU exclusiv, înregistrare în memorie Nabota cu șir Mutare între operanzi șir; se da lungimea repetarea prefixului kami Copiați de la șirul sursă la destinație în căile de incrementare ESi și EDI se poate repeta tods Încărcați un octet, cuvânt sau dword dintr-un șir în registrul EAX Pe fig Figura prezintă codificarea a doi specificatori de adrese post-octeți afișați pentru • modul pe și de biți Din păcate pentru a înțelege pe deplin ce registre și ce mod de adresare sunt disponibile, trebuie să înțelegeți □ toate modurile de adresare și, uneori, chiar și codificarea instrucțiunilor Rezultatul cunoașterii cu x Microprocesorul Intel pe biți a sosit cu doi ani mai devreme decât arhitectura mai elegantă a concurenților săi, precum microprocesorul Motorola , iar această circumstanță a fost principalul factor în alegerea microprocesorului ca unitate centrală de procesare pentru computerul IBM PC Inginerii Intel sunt în general de acord că x este mai dificil de construit decât sistemele informatice, cum ar fi • ARM și MIPS, iar oportunitățile de piață mai largi permit alocarea mai multor resurse pentru a depăși complexitatea suplimentară Neajunsurile stilistice ale x sunt compensate de indicatori cantitativi, făcând această familie atractivă în viitorul apropiat Acest lucru este facilitat de faptul că cele mai frecvent utilizate componente ale arhitecturii x nu sunt prea greu de implementat, judecând după ceea ce AMD și Intel au demonstrat că ridică rapid performanța programelor de calcul întregi față de ceea ce erau în Pentru a atinge acest nivel de performanță, compilatorii trebuie să evite acele părți ale arhitecturii care sunt greu de pus la lucru la viteză mare Plav Instructiuni: limbaj informatic a) JE EIP ♦ amestecare JE Offset Apelați CALL Offset (OfHet) c) MOV EBX (EDI* ) a MOV dw r/m Postbyte Părtinire d) PV H ESI APĂSAŢI e) AODEAX ADO Beqw Valoare imediată (imediată) f) TESTEDX TEST □ Postbyte j Valoare imediată (imediată) Orez B Formate tipice de instrucțiuni hvb Codificarea postoctet este prezentată în Figura - Multe instrucțiuni au un câmp w de un bit care indică asta dacă operația este un octet sau un cuvânt dublu Câmpul d din instrucțiunea MOV este utilizat în instrucțiuni care pot muta date în sau din memorie și indică direcția de mișcare Instrucțiunea A necesită de biți pentru câmpul de valoare imediată, imediat, deoarece în modul cu de rânduri, valorile imediate au dimensiunea fie b sau de biți În instrucțiunea TEST, câmpul imediat are o lungime de de biți, deoarece nu există valori imediate de biți B la testarea în modul de de biți În general, lungimea instrucțiunilor poate varia de la la octeți Lungimea mare se datorează prefixelor suplimentare de un octet, prezenței atât a valorilor imediate de octeți, cât și adreselor de relocare de octeți, utilizării unui cod operațional (opcode) de octeți și a unui specificator de mod index scalabil care adaugă încă i octeți w - W = = r/m mod = mod ■ mod • mod - b b b b b b b b AL AX EAX addrBX"SI EAX Aceeași adresă ca e mod- * d"spS Aceeași adresă ca mod" ♦ dispâ Aceeași adresă ca mod- • displ Aceeași adresă ca în mod- ♦ dlsp Aceeași MTOI în câmpul gay CL cx ECX addr-BX-rDI 'ECX DL DX EDX addr-BP-SI •EDX BL IN EBX addr BP'SI •EBX AH SP ESP addr SI "(sb) Sl" dsp (S/OHdispS SHdisp (s/ty>disp • CH BP EBP addr-Dl -disp Dl sp BP-disp» ESI>disp • HV D« EDI addr-BX •EDI BX-d spe EDI*dispB BX-dispT EDRdisp • Orez Codificarea primului specificator de adresă la : mod, re și, g/m Primele patru coloane arată codarea pe biți care a fost epuizată care depinde de valoarea bitului w al codului operațional (opcode) și de modul în care mașina este în modul pe biți ( ) sau pe de biți ( ) Coloanele rămase dezvăluie valorile câmpurile mod și r/m m depinde de valoarea câmpului mod de biți și de dimensiunea adresei, practic, registrele utilizate în calculele adresei sunt listate în coloanele a șasea și a șaptea sub titlul general mod = O: în mod = mod, un offset de biți (dlsptacement abreviat disp), iar în modul mod = - offset de biți sau de biți, în funcție de modul de adresare este selectat VR plus offset; } când r/m = , când mod = sau mod = în modul de biți, se alege EVR plus offset și ) când r/m ■ în modul de biți, când mod * , ( sib) înseamnă utilizarea modului index scalabil prezentat în Tabelul Când mod = , câmpul r/m indică registrul folosind aceeași codificare folosită în câmpul ged în combinație cu bitul w Capitolul Instrucțiuni: Limbajul computerului Concepții greșite și neînțelegeri Iluzie Instrucțiuni mai impresionante sunt un semn de productivitate mai mare Unul dintre punctele forte ale Intel x este prefixele, care pot modifica execuția următoarelor instrucțiuni Un prefix poate specifica că următoarea instrucțiune se repetă până atunci până când contorul este resetat Prin urmare) poate părea destul de natural să folosiți o secvență constând dintr-o instrucțiune prefixată cu repetare pentru a muta cuvinte de de biți din memorie în memorie O metodă alternativă, folosind instrucțiunile standard găsite în toate computerele, este încărcarea datelor în registre și stocarea registrelor în memorie Această a doua versiune a acestui program, cu cod repetitiv pentru a reduce supraîncărcarea în buclă, copiază de aproape o ori și jumătate mai rapid A treia versiune, care folosește registre x non-întregi iar registrele mai mari cu virgulă mobilă copiază aproape de două ori mai repede decât instrucțiunea nucleară compusă Iluzie Pentru a obține cele mai înalte performanțe, trebuie să scrieți un program în limbaj de asamblare Pe vremuri, compilatoarele pentru limbaje de programare produceau secvențe foarte simple de instrucțiuni; Rafinamentul compilatorului înseamnă reducerea decalajului dintre codul generat de compilator și codul scris de mână iar decalajul se reduce foarte repede De fapt, pentru a concura cu compilatoarele moderne, un programator în limbaj de asamblare trebuie să stăpânească pe deplin conceptele abordate în capitolele și (conducta procesorului și ierarhia memoriei) Aceasta este o competiție între compilatori și programatori care lucrează în limbaj de asamblare este un exemplu al acelor situații în care oamenii își pierd pozițiile De exemplu, limbajul C permite programatorului să spună compilatorului ce variabile să stocheze în registre, fără a le scoate în memorie Într-adevăr, unele dintre cărțile vechi C dedică destul de mult spațiu exemplelor care utilizează în mod eficient indicii de registru Compilatoarele C moderne tind să ignore astfel de indicii, deoarece sunt mai buni la alocarea resurselor decât programatorul Chiar dacă codul scris de mână va rula mai repede, riscurile asociate cu scrierea codului în asamblare sunt mai mult timp pentru a-l scrie și depana, pierderea portabilității codului și dificultăți în suportul ulterioar că programarea durează mai mult, trebuie să scrieți mai multe linii de cod și este destul de evident că un program de asamblare va necesita mult mai multe linii decât un program C sau Java În plus, după crearea codului pentru acest program, apare o altă amenințare, concluzionez n volum că programul va deveni popular Durata de viață a unor astfel de programe se dovedește întotdeauna a fi mai lungă decât se aștepta, ceea ce înseamnă că cineva va trebui Concepții greșite și neînțelegeri Actualizez codul la fiecare câțiva ani, făcându-l să funcționeze cu noi versiuni de sistem de operare sau modele noi de mașini Scrierea unui program într-un limbaj de nivel înalt, mai degrabă decât într-un limbaj de asamblare, nu numai că le permite viitorilor compilatori să lege codul la viitoarele mașini, dar îl face și mai ușor a mentine ■ krammnop) și permite programului să funcționeze pe un număr mai mare de calculatoare linotip Iluzie Importanța comercială a compatibilității binare înseamnă că un set de instrucțiuni de succes nu va fi supus modificării Deși nimeni nu încalcă compatibilitatea inversă la nivelul mizelor binare în fig Figura - arată că arhitectura x a trecut printr-o cale de dezvoltare foarte rapidă, cu o medie de o instrucțiune adăugată pe lună! capcană Unii oameni uită că adresele mașinilor de straturi ulterioare adresate de octeți diferă unele de altele prin mai mult de una Mulți programatori de limbaj de asamblare au fost chinuiți de erori pre-ipsine din cauza presupunerii că adresa cuvântului următor poate fi obținută prin creșterea adresei într-un registru cu unul, mai degrabă decât prin dimensiunea cuvântului în octeți Dar avertizat dinainte – adică, în avans! Capcană Utilizarea unui pointer către o variabilă automată în afara procedurii în care este definită Când lucrați cu pointeri, o greșeală comună este să treceți de la o procedură rezultatul cu un pointer la o matrice care este locală acestei proceduri În conformitate cu ordinea de utilizare a stivei, prezentată în Fig , memoria care conține matricea locală va fi reutilizată de îndată ce procedura iese Folosirea pointerilor către variabile automate poate duce la un oarecare haos - - * GBP ; s G Eu la zoo eu O ■ GI II » I U G I T III I ! | G U I U T T I U I" An Orez Graficul creșterii în timp a numărului de instrucțiuni din setul * Deși unele dintre extensiile setului de instrucțiuni aveau o valoare tehnică evidentă, viteza schimbării nu a fost în plus, a îngreunat pentru alte companii crearea de procesoare compatibile Capitolul Instrucțiuni: Limbajul computerului Comentarii finale Less ts toge („În mai puțin este mai mult”) Robert Browning La două principii ale calculatoarelor cu programe stocate în memorie includ utilizarea instrucțiunilor care nu se pot distinge de numere și utilizarea memoriei mutabile pentru programe Aceste principii permit ecologiștilor, finanțatorilor și scriitorilor să folosească aceeași mașină Alegerea unui set de instrucțiuni pe care mașina le înțelege necesită un echilibru delicat între numărul de instrucțiuni necesare pentru a executa un program, numărul de cicluri de ceas necesare pentru a executa o singură instrucțiune și viteza de ceas După cum se arată în acest capitol, patru principii de proiectare duc la acest echilibru delicat al designerilor de seturi de instrucțiuni: Simplitatea preferă consistența Persistența a motivat multe proprietăți ale setului de instrucțiuni MIPS: păstrarea tuturor instrucțiunilor la aceeași dimensiune, necesitând invariabil trei operanzi de registru în instrucțiunile aritmetice și având câmpuri de registru în aceleași locuri în formatul fiecărei instrucțiuni Mai mic este mai rapid Sarcinile frecvente ar trebui finalizate mai repede Exemplele de accelerare a sarcinilor comune în MIPS includ adresarea relativă a numărului de programe pentru salturi condiționate și adresarea directă pentru operanzi mari constanți Un design bun necesită compromisuri bune Un exemplu de respectare a acestui principiu în MJPS este compromisul dintre acordarea instrucțiunilor de adrese și constănțe mai lungi și păstrarea tuturor instrucțiunilor la aceeași lungime La acest nivel de mașină este limbajul de asamblare, care poate fi deja citit de o persoană Asamblatorul se traduce în numere binare care pot fi citite de mașină și chiar „extinde” setul creând instrucțiuni simbolice care nu sunt acceptate de hardware etc În tabel enumeră instrucțiunile MlPS pe care le-am luat în considerare, inclusiv instrucțiuni reale și pseudo Fiecare categorie de instrucțiuni MIPS este asociată cu constructe găsite în limbaje de programare ♦ Instrucțiunile aritmetice corespund operațiilor disponibile în instrucțiunile de atribuire ♦ Instrucțiunile de transfer de date sunt cel mai frecvent utilizate atunci când se lucrează cu structuri de date, cum ar fi matrice sau structuri Comentarii finale ■ Salturile condiționate sunt utilizate în instrucțiunile if și buclele • Salturile necondiționate sunt utilizate în apelurile și returnările de procedură și în instrucțiunile case-SMitch Atitudinile față de aceste instrucțiuni variază; popularitatea unora dintre ele rămâne în urma popularității tuturor celorlalți Cererea pentru fiecare clasă de performanță în îndeplinirea sarcinilor de control SPEC este prezentată, de exemplu, în Tabel Cererea în schimbare pentru instrucțiuni joacă un rol important în cusături dedicat unității de operare, unității de control și conductelor După ce capitolul acoperă aritmetica computerului, vom acoperi restul arhitecturii setului de instrucțiuni M PS ■blitz Instrucțiunile MIPS pe care le-am luat în considerare, unde sunt indicate mai întâi instrucțiunile reale și apoi instrucțiunile lseado Pentru informații mai detaliate despre instrucțiunile prezentate în acest capitol, consultați tabelul Instrucțiuni MIPS Format nume adaugă (adăugare) adaugă R „jbtract (scădere) sub R adăugare imediată (adăugare imediată) addi cuvânt oed (încărcare de cuvinte) ta stocați cuvântul SW f sarcină hali m broasca pe jumatate nesemnata Ihu magazin stop sh g ■ toad byte (byte de încărcare) Ib încărcare octet nesemnat lt> dacă este mai mare decât*) bgt i ramură mai mare sau egală (sărire -dacă este mai mare sau egală*) bge Tabelul Clasele de instrucțiuni MIPS, exemple, mapări la ■ constructe de limbaj de programare de nivel înalt și procentul de instrucțiuni MIPS executate pe categorii pentru benchmark-urile medii SPEC Figura din capitolul arată procentul mediu de executanți individuali? Instrucțiuni MIPS Clasa de instrucțiuni Exemple din MIPS Corespondență în elementele de bază-ca-nivel înalt Frecvența de utilizare Întreg Cu plutitor, punct Aritmetică > adăugare, sub add Operațiuni în instrucțiunile de atribuire % % Transfer de date tw sw Ib Kxj Ih Ihu sb lui Referințe la structuri de date precum matrice % % boolean și sau nici an -move bep bne slt siti, slttu Instrucțiuni f și cicluri % % Salt necondiționat iFiai Proceduri de apelare, întoarcere de la proceduri și instrucțiuni casesw'tch % - - Exerciții Exerciții de John Oliver, California College of Engineering, San Luis Obispo, cu completări de la Nicole Kayuan (Universitatea din Adelaide) și Milos Prvulovik (Milos *- lііоѵіс) (Georgia Institute of Technology) Scopul tău ar trebui să fie să înveți un set de instrucțiuni MIPS reale, • dacă se pune întrebarea despre numărarea numărului de instrucțiuni, este necesar să se ia în considerare nu * Eudonnstructions, mai degrabă decât instrucțiuni reale care trebuie urmate Există cazuri care necesită utilizarea de pseudo-instrucțiuni (de exemplu, instrucțiunile Ta când valoarea reală nu este încă cunoscută la momentul asamblarii) În multe cazuri, astfel de instrucțiuni sunt foarte convenabile și vă permit să obțineți cod care este mai ușor de citit (de exemplu, instrucțiunile și degetul de la picioare) Dacă pseudo-instrucțiunile sunt alegerea din aceste motive, atunci vă rugăm să adăugați câteva sugestii la decizia dvs , cu o rațiune pentru care sunt aplicate pseudo-instrucțiunile și de ce Exercițiul Următoarele sarcini implică traducerea din C în limbajul de asamblare MIPS Să presupunem că ni se dau variabilele , b, i și j care pot fi considerate împreună cu o declarație într-un program C ca numere întregi pe de biți I* f - d ♦ h ♦ i • j în f ■ q » (în » Sk | J Care ar fi codul de asamblare MIPS pentru fiecare dintre instrucțiunile C de mai sus? Utilizați numărul minim de instrucțiuni de asamblare MIPS* [ ] Câte instrucțiuni de limbaj de asamblare MIPS ar fi necesare pentru a executa fiecare dintre instrucțiunile C de mai sus? [ ] Care va fi valoarea finală a variabilei T dacă variabilele g, h, și j au valorile respectiv , , și ? Următoarele sarcini sunt legate de traducerea din MIPS în C Să presupunem că variabilele sunt g h, i și j care pot fi tratate ca numere întregi de de biți, așa cum este declarat în programul C • ado fq h b a sau k" » Care ar fi instrucțiunea C corespunzătoare pentru instrucțiunile MIPS prezentate mai sus? ] Care va fi valoarea finală a variabilei I dacă variabilele r, g, h și au valorile respectiv si ? Capitolul Instrucțiuni Limbajul computerului Exercițiul Următoarele probleme sunt legate de translația din C în MIPS Să presupunem că având în vedere variabilele g, h, ' și J, care pot fi considerate, conform declarației din programul C, ca numere întregi de de biți f ♦ f « i ♦ (J ♦ > [ ] Care ar fi codul de asamblare MIP pentru fiecare dintre instrucțiunile C de mai sus? Utilizați numărul minim de instrucțiuni de asamblare MIPS [ ] Câte instrucțiuni de limbaj de asamblare MIPS ar fi necesare pentru a executa fiecare dintre instrucțiunile C de mai sus? | ] Care va fi valoarea finală a variabilei f dacă variabilele f, q, h și au valorile , , și respectiv ? Următoarele sarcini implică traducerea din MIPS în C Să presupunem că sunt date variabilele g, h, i și j, care pot fi tratate ca numere întregi de de biți, conform declarației și programului C L s (M ff h b sub f W t jddi ff ) Care ar fi instrucțiunea C corespunzătoare pentru software instrucțiunile MIPS de mai sus? [ ] Care va fi valoarea finală a variabilei f dacă variabilele fg, h și au valorile , , și respectiv ? Exercițiul Următoarele sarcini sunt legate de traducerea din C în MIPS Să presupunem că există și alte variabile g, h, m și j care pot fi considerate ca declarate! într-un program C, ca numere întregi de de biți b |f ■ g (f ■> ) [ ] Care ar fi codul de asamblare MIPS pentru fiecare dintre instrucțiunile C de mai sus? Utilizați numărul minim de instrucțiuni de asamblare MIPS [ | Câte instrucțiuni de limbaj de asamblare MIPS ar fi necesare pentru a executa fiecare dintre instrucțiunile C de mai sus? [ | Care va fi valoarea finală a variabilei f dacă variabilele f, g, h, și J au valorile , , și, respectiv, ? Exercițiul Următoarele sarcini sunt legate de traducerea din MIPS în C Să presupunem că numele g, h, i și j sunt variabilele g, h, i și j, care pot fi tratate ca numere întregi de de biți conform declarației programului a da fgn add suo hf f gh ( Care ar fi instrucțiunea C corespunzătoare pentru instrucțiunile MIPS prezentate mai sus? | Care va fi valoarea finală a variabilei f dacă variabilele jh și i au valorile , , și, respectiv, ? Exercițiul >?Luyuschie sarcini asociate cu traducerea de la C la MIPS Să presupunem că • variabilele i ( g, h, i și j sunt atribuite, respectiv, registrelor SsO Ssl, Ss , Ss * І L Să presupunem că adresa de bază a tablourilor A și B este situată în registrele Ss și, respectiv, Ss • P • V( ) * • • *[B[ )] b ( ) Care ar fi codul de asamblare MIPS pentru fiecare dintre instrucțiunile C de mai sus? ( Câte instrucțiuni de limbaj de asamblare MIPS sunt necesare ■ Pentru a executa fiecare dintre instrucțiunile C de mai sus? [ ] Câte registre diferite sunt necesare pentru a executa Care ar fi instrucțiunea C corespunzătoare pentru instrucțiunile MIPS prezentate mai sus? ( ) Rescrieți instrucțiunile de asamblare MIPS prezentate mai sus pentru a minimiza numărul necesar pentru a îndeplini aceeași funcție (dacă este posibil) Capitolul Instrucţiuni: Limbajul computerului | ] Câte registre sunt necesare pentru a executa citirea >pi deasupra codului de asamblare MIPS? Dacă reușiți să rescrieți codul de mai sus atunci care este numărul minim de registre de care va avea nevoie? Exercițiul Următoarele sarcini vor explora operațiunile de memorie în contextul unui procesor MIPS Tabelul de mai jos conține valorile matricei stocate în memorie l Adresa Da Folosind stările de memorie prezentate mai sus, scrieți un C col care sortează datele în ordine crescătoare și plasează cea mai mică valoare în cea mai mică adresă de memorie afișată Presupunem că datele afișate sunt o variabilă C numită Argau care este un tablou întreg (cu valori de tip int) Să presupunem că această mașină specifică folosește adresarea de octeți și că fiecare cuvânt este format din octeți [ ] Folosind stările de memorie prezentate mai sus, scrieți codul în limbajul de asamblare M PS sortarea datelor în ordine crescătoare și plasarea celei mai mici valori în adresa de memorie cea mai mică afișată Utilizați cât mai puține instrucțiuni MIPS pentru a face acest lucru Să presupunem că adresa de bază a matricei Argau este stocată într-un registru Js [ ] Câte instrucțiuni de asamblare MIPS ar fi necesare pentru a sorta matricea prezentată mai sus? Câte instrucțiuni vor fi necesare pentru aceasta dacă utilizarea câmpurilor de valoare imediată în instrucțiunile Іi și sw este interzisă? Următoarele sarcini vor explora conversia numerelor hexazecimale în numere în alte formate a > c b OibeadfOOd | ] Convertiți numerele hexazecimale afișate mai sus în numere zecimale [ ] Arătați cum ar fi introduse datele din tabel în memoria mașinii cu formatul de scriere cu octet mic (litdc-endian) și în memoria mașinii cu formatul de scriere octet mic ps Exercițiile , la orice adresă (big-endian) Să presupunem că datele se potrivesc în memorie Nouă de la adresa Exercițiul Următoarele sarcini sunt legate de traducerea din C în MIPS Să presupunem că altfel variabilele f g, h, și, respectiv, j sunt alocate registrelor SsO Ssl, Ss , Ss " * Să presupunem că adresa de bază a tablourilor A și B este situată în oegmetrele Ss și Ss ■ f - ♦ h • B[l] • f • A(B[gl*l]; ( | Care ar fi codul de asamblare MIPS pentru fiecare dintre instrucțiunile C de mai sus? | | Câte instrucțiuni de limbaj de asamblare HIPS ar fi necesare pentru a executa fiecare dintre instrucțiunile C de mai sus? | | Câte registre sunt necesare pentru a executa fiecare m din instrucțiunile de mai sus C când se utilizează assembler construirea MIPS? Următoarele sarcini sunt legate de translația din MIPS în C Să presupunem că schimbăm variabilele f, g h, i și j sunt alocate registrelor SsO, Ssl, Ss și, respectiv, Ss Să presupunem că adresa de bază a tablourilor A și este în registrele Ss și, respectiv, Ss A adauga DAR IO Ssl adauga SsO DIN Ss adauga HO HO IE b add Ss Js add »s Ssl w IsO (ls ) | | Care ar fi instrucțiunea C corespunzătoare pentru instrucțiunile MIPS dovedite mai sus? ] Folosind codul de asamblare MIPS prezentat mai sus, să presupunem că SSO se înregistrează Ssl, Ss , Ss conțin valorile , Ț , și, respectiv, De asemenea, presupunem că registrul Ss conține valoarea iar următoarele valori sunt stocate în memorie: r Adresa banner* b Determinați valoarea registrului SsO la sfârșitul codului de asamblare ( ] Pentru fiecare instrucțiune MIPS, afișați valorile câmpurilor rs și rț Pentru instrucțiunile de tip I, afișați conținutul câmpului cu valoare imediată, iar pentru instrucțiunile de tip R, arată valoarea câmpului rd Capitolul Instrucțiuni: Limbajul computerului Exercițiul Următoarele probleme explorează transformările numerelor binare cu semn și fără semn semn la numere zecimale a * ROOS b ) ! OOP ( | Cu ce numere de bază corespund exemplele prezentate acum, cu condiția să fie numere întregi, complement a doi? ] Cu care numere de bază corespund exemplele prezentate mai sus, cu condiția să fie numere întregi fără semn? [ | Ce numere hexazecimale corespund exemplelor prezentate mai sus? Următoarele probleme explorează conversia numerelor zecimale în numere binare cu semne și fără semn • , ' b Yuroyu | | Convertiți numerele zecimale de mai sus în binarul complementului a doi [ J Convertiți numerele zecimale afișate mai sus în complementul a doi ish-stnalpateric [ Convertiți numerele zecimale afișate mai sus în negative și convertiți-le în hexazecimal complement a doi Exercițiul Următoarele sarcini sunt legate de extindere și depășire Registrele I și Ss conțin valorile afișate în tabel Va trebui să efectuați operații MIPS pe aceste registre și să afișați rezultatul a " - Ssl - Q QtfFFFFF 'b KO - x * • x " | | Care va fi valoarea registrului *t după executarea următorului cod de asamblare, dacă conținutul registrelor IO și $ este așa cum se arată mai sus: ao StO SSO SSL Rezultatul în StO va fi acceptabil sau va exista un preaplin? [ | Care va fi valoarea registrului StO după executarea următorului cod de asamblare, dacă conținutul registrelor SsO și Ssl este așa cum se arată mai sus: sub STO SsO Ssl Rezultatul în StO va fi acceptabil sau va exista un preaplin? Exercițiile [ ] Care va fi valoarea registrului StO după executarea următorului cod de asamblare dacă conținutul registrelor » și Ssl este așa cum se arată mai sus: „Sunt STO SsO Ssl ■Sunt StO STO SSO Rezultatul în StO va fi acceptabil sau va exista un preaplin? Următoarele sarcini vor efectua diverse operații MIPS pe perechea ■ignt'tuyun SsO și Ssl Folosind valorile SsO și Ssl specificate pentru fiecare sarcină stabiliți dacă va avea loc un preaplin nu adăugați KO SSO SSL Sub SsO SsO Ssl Sub SSO SSO ssl | | Să presupunem că registrul SsO este x și registrul este x Va apărea o depășire la executarea codului afișat ■ masa? | | Să presupunem că registrul SsO este x și registrul este x Va avea loc o depășire la executarea codului afișat ■ masa? [ ] Să presupunem că registrul SsO este x FFFFFFF și registrul i este x ) Va avea loc o depășire la executarea codului prezentat în tabel? Exercițiul Următorul tabel conține diverse valori pentru registrul Ssl Sarcinile întreabă dacă va apărea o depășire atunci când operațiunile specificate sunt evaluate gmedzygm , [ ] Presupunem că registrul I$ este x și registrul Ssl are valoarea prezentată în tabel Va apărea o depășire la executarea instrucțiunii a Să presupunem că registrul SsO este x și registrul Ssl este setat la valoarea afișată în tabel Va avea loc un depășire la executarea instrucțiunii sub s$ SSO SSL? [ | Să presupunem că registrul SsO este x FFFFFFF și registrul Ssl are valoarea afișată în tabel Dacă va apărea o depășire la executarea instrucțiunii sub SsO SSO SSL? Următorul tabel conține diverse valori pentru registrul Ssl Sarcinile întreabă dacă va apărea o depășire atunci când operațiunile specificate sunt evaluate Capitolul Instrucțiuni: Limbajul computerului a OOOO OOOO b OOP | ] Să presupunem că registrul SsO este x și registrul Ssl are valoarea afișată în tabel Dacă va apărea o depășire la executarea instrucțiunii add SsO SsO Ssl? ] Să presupunem că registrul SsO = x și registrul Ssl are valoarea afișată în tabel Care va fi rezultatul în hexazecimal Să presupunem că registrul SsO este x și registrul Ssl are valoarea afișată în tabel Care va fi rezultatul în format zecimal atunci când este executată instrucțiunea de adăugare SsO SSO SSL? Exercițiul În următoarele sarcini, tabelul de date conține biți care reprezintă valoarea codului operațional al instrucțiunii Va trebui să traduceți intrările într-un cod de asamblare și să determinați ce format reprezintă instrucțiunile MlPS a OOOO OOOO b OOOO OOOO OOOO oooh? | | Ce instrucțiune reprezintă notațiile binare de mai sus? ] Ce tip de instrucțiune (tip I, tip R) reprezintă notațiile binare de mai sus? [ | Dacă intrările binare prezentate mai sus ar fi data, ce număr hexazecimal ar reprezenta ele? În următoarele sarcini, tabelul de date conține instrucțiuni MIPS You iizh" va traduce intrările în biți opcode și va determina formatul instrucțiunii MIPS a » gy stO sto szero b II Stl, (Ss ) | | | Afișați reprezentarea hexazecimală pentru fiecare* din instrucțiunile de mai sus ( ) Ce tip de instrucțiune (tip i, tip R) reprezintă citirile de deasupra instrucțiunii? | | Care este reprezentarea hexazecimală a câmpurilor ode, n și rt ÎN ACEASTĂ instrucțiune? Care este reprezentarea hexazecimală a câmpurilor și fond pentru instrucțiuni de tip R? Care este reprezentarea hexazecimală a câmpului iapebiaied pentru instrucțiuni de tip i? Exercițiul Exercițiul În următoarele sarcini, tabelul de date conține biți care reprezintă cunoașterea instrucțiunii opcode Va trebui să traduceți intrările în cod de asamblare și să compilați ce format de instrucțiune MIPS reprezintă acești biți OnAfOBFFfC [ " vggso [ | Care număr binar este reprezentarea numerelor hexazecimale prezentate mai sus? | | Ce numere zecimale sunt reprezentarea numerelor hexazecimale pocăite de mai sus? [ | Ce instrucțiuni reprezintă numerele de șase termeni prezentate mai sus? În următoarele sarcini, tabelul de date conține valorile diferitelor câmpuri ale instrucțiunilor ' IIPS Va trebui să definiți instrucțiunea și formatul MIPS b op- cj-; - 'O-Z șrarț-O Gips; " Or * O" B rs-Oxlfl - * adulmecând „ x [ ] Ce tip de instrucțiune (tip I, tip R) sunt instrucțiunile prezentate mai sus? ( | Ce instrucțiuni de asamblare sunt descrise mai sus? [ ] Cum arată reprezentarea binară a instrucțiunilor de mai sus? Exercițiul În următoarele sarcini, tabelul de date conține diverse modificări pe care le poate suferi arhitectura setului de instrucțiuni MIPS Trebuie să investigați impactul acestor modificări asupra formatului de instrucțiuni al arhitecturii MIPS a pe amendă I Cosgants specificati mediu Iegus pe biți | | | Dacă setul de instrucțiuni al procesorului MIPS s-a schimbat, atunci trebuie să se schimbe și formatul de instrucțiuni Pentru fiecare modificare sugerată mai sus, afișați dimensiunea câmpurilor în biți pentru o instrucțiune de tip R Câți biți sunt necesari pentru fiecare instrucțiune? [ Dacă setul de instrucțiuni al procesorului MIPS s-a schimbat, atunci trebuie să se schimbe și formatul de instrucțiuni Pentru fiecare modificare sugerată mai sus, afișați dimensiunea câmpurilor în biți pentru instrucțiunea de tip Câți biți vor fi necesari pentru fiecare instrucțiune? Capitolul Instrucțiuni: Limbajul computerului [ ] Modificările de mai sus pot reduce dimensiunea unui program în limbaj de asamblare MIPS și de ce? Modificările sugerate mai sus pot crește dimensiunea unui program în limbaj de asamblare MIPS și de ce? Tabelul de date pentru următoarele sarcini conține valori hexazecimale Trebuie să determinați ce instrucțiune MIPS reprezintă valoarea rmai a acestei instructiuni un x x J [ | Care va fi valoarea zecimală a intrărilor de mai sus [ ] Ce instrucțiune reprezintă intrările hexazecimale prezentate mai sus? [ | Ce tip de instrucțiuni (tip , tip R) este reprezentarea binară a intrărilor prezentate mai sus? Care vor fi valorile pentru te*op și rt? Exercițiul Tabelul de date pentru următoarele sarcini conține valorile registrelor NO și Stl Va trebui să efectuați o serie de operații booleene MIPS pe aceste registre a StO - x Stl - x ' sto • ohkyupo sti • o«aWAOt [ Ce valoare va obține înregistrarea St după executarea unei secvențe de instrucțiuni folosind valorile afișate mai sus? $ St STO sau St St Stl ( ] Care va fi valoarea registrului St după executarea următoarei secvențe de instrucțiuni folosind valorile prezentate mai sus? $ St STO și-i St St -unu [ ] Care va fi valoarea registrului St după executarea următoarei secvențe de instrucțiuni folosind valorile afișate? $r St STO andi St St OxFFIF Exercițiile Tabelul de date pentru următoarele sarcini conține diverse operații logice MIPS Va trebui să găsiți rezultatul acestor operații pentru valorile date ale „chGGROUP NO și II Sil St HC sau Hz it ttl srl St StO ar Să presupunem că IO este xOOOOA A și P este A A Câți ani are valoarea lui I după executarea celor două instrucțiuni prezentate în tabel? , J [ ] Să presupunem că IO este OxA A și II - A A Care este valoarea lui I după executarea celor două instrucțiuni prezentate în tabel? ( J Să presupunem că JtO este xA A FFFF și II este A A FFFF Câți ani are * valoarea lui H după executarea celor două instrucțiuni prezentate în tabel? Exercițiul Figura arată plasarea în registrul IO a unui câmp format din mai multe ■jp>ti in J I o Papă -i - rajay І-)-p "> ryals j reirldi În următoarele sarcini, va trebui să scrieți instrucțiuni MIPS pentru a extrage biții „Field” din registrul OI și a-i pune în registrul II la locul indicat în următorul tabel: la j OOO Câmp o " * - mdedy OOO Lole OOO [ | Găsiți cea mai scurtă secvență de instrucțiuni MIPS care extrage un câmp din IO pentru valorile constantelor i - și j - și plasează paleta în II în formatul prezentat în fișa de date [ | Găsiți cea mai scurtă secvență de instrucțiuni M PS care extrage un câmp din JtO pentru valorile constantelor i și și j ■ și plasează câmpul în II în format prezentate în fișa de date | | Găsiți cea mai scurtă secvență de instrucțiuni MIPS care extrage un câmp din IO pentru valorile constantelor i - și j și plasează câmpul în II în formatul prezentat în fișa de date Capitolul Instrucțiuni: Limbajul computerului În următoarele sarcini, va trebui să scrieți instrucțiuni MIPS pentru a extrage biții „Field” din registrul NO prezentat în figură și să-i plasați în registrul Stl, în locurile prezentate în tabel Biți marcați cu „XXX” nu ar trebui să se schimbe • S - - XXX XX X Câmp b , irlnzhdy V XXX XX X Sex* XXX XX X [ | Găsiți cea mai scurtă secvență de instrucțiuni M PS extragând un câmp din StO pentru valorile constante i - și J " și plasând câmpul în St' , în formatul afișat în fișa de date [ | Găsiți cea mai scurtă secvență de instrucțiuni MIPS care extrage calea din HO pentru valorile constante i - și J - și plasează calea în st' , în formatul afișat în fișa de date ( | Găsiți cea mai scurtă secvență de instrucțiuni MIPS care extrage un câmp din StO pentru valori constante i - și j - și pune câmpul în stl, în formatul afișat în fișa de date Exercițiul Pentru următoarele sarcini, tabelul conține operații logice care nu sunt incluse în setul de instrucțiuni MIPS Cum pot fi implementate aceste instrucțiuni? și „a cântat Stl u din I ^ bit I I 'DIN b xpog Stl stz de // spațiere pe biți SAU Ht [ ] Instrucțiunile logice prezentate aici nu sunt incluse în setul de instrucțiuni MIPS, dar au descrieri ( ] Instrucțiunile logice afișate până acum nu sunt incluse în setul de instrucțiuni MIPS, dar pot fi sintetizate folosind una sau mai multe instrucțiuni de asamblare MIPS , g prezentat în tabelul de mai sus | | Arată cum arată secvența ta de instrucțiuni, remediată în problema , la nivel de biți, evidențiind fiecare m instrucțiuni Următorul tabel prezintă diverse instrucțiuni logice în C În acest exercițiu, veți calcula rezultatul executării acestora și " Exercițiul expresii și implementați instrucțiuni în limbajul C folosind instrucțiunile limbajului de asamblare MIPS I I* - IN I CțOJ • A - A ? În C[ ] I [ ] Tabelul de mai sus oferă diverse instrucțiuni pentru • shke C folosind operatori logici Care va fi valoarea finală a lui A, - nici la adresa de memorie C[ ] nu conține valoarea întreagă x , • valorile întregi inițiale ale variabilelor A și B sunt x x ? | Scrieți secvența minimă de instrucțiuni în limbajul de asamblare MIPS din instrucțiunile C de mai sus care se execută • Faceți aceeași operațiune [ ] Arată cum arată secvența ta de instrucțiuni obţinut prin rezolvarea problemei , la nivel de biţi, prin evidenţierea fiecăreia dintre funcţii Exercițiul Pentru următoarele sarcini, tabelul conține diverse valori binare pentru registrul MO Folosind valorile StO, va trebui să calculați totalul diferitelor ■exo și>v oooo oooo oooo , b [ | Să presupunem că registrul IO conține valoarea din tabel si Stl conteaza XI oooo oooo oooo oooo, Care va fi valoarea registrului st după executarea următoarelor instrucțiuni? slt M MO ml oeq M , Szero ELSE JOONE ExSE; adăugați: M Szero ZONA: ( | Să presupunem că registrul stO conține valoarea „i ” a tabelului și o compară cu valoarea x folosind instrucțiunile MIPS prezentate mai jos Există o valoare a lui X care face ca M să fie egal cu I și ce sens? se potrivesc cu M MO X | | Să presupunem că contorul de programe (PC) este x Pot folosi instrucțiunea de salt în limbajul de asamblare MIPS (j) pentru a seta computerul la adresa afișată în tabel? este posibil să Capitolul Instrucţiuni Limbajul computerului utilizați instrucțiunea jump-on-equality în limbajul de asamblare MIPS (beq) pentru a seta computerul la adresa afișată în tabelul de mai sus? Pentru următoarele sarcini, tabelul conține diverse valori binare pentru registrul ttC Folosind valori StC va trebui să calculeze totalul diferit! tranziții * b * [ ] Să presupunem că registrul $t conține o valoare dintr-un tabel Care va fi valoarea registrului St după executarea următoarelor instrucțiuni? sltIt $to ItO bne »t Isero ALTE J jOM ALTE a (Mi »t »t DON* | | Să presupunem că registrul StO conține valoarea n| Mese Care va fi valoarea registrului St după executarea următoarelor instrucțiuni? sil »t ItO slt »t »t Szero ( J Să presupunem că contorul de programe (PC) este x OOOO Pot folosi instrucțiunea de ramificare a limbajului de asamblare MIPS (j) pentru a seta computerul la adresa afișată în tabel? Pot folosi instrucțiunea de salt când este egal în limbajul de asamblare MIPS (bea) ll" setarea computerului la adresa afișată în tabel? Exercițiul Următoarele sarcini vor folosi mai multe instrucțiuni în afara setului de instrucțiuni MIPS un „h St? St f R(rtJJ • |R[rt]| sgt stl Sf? sta * B(rd] - (R[rs] > R(rt]> ' î [ ] Tabelul conține instrucțiuni care nu fac parte din setul de tipuri de instrucțiuni MIPS și o descriere a fiecăreia dintre aceste instrucțiuni De ce aceste instrucțiuni nu sunt incluse în setul de instrucțiuni MIPS? | | Tabelul conține instrucțiuni care nu fac parte din setul de instrucțiuni MIPS și o descriere a fiecăreia dintre aceste instrucțiuni Care ar fi formatul potrivit pentru aceste instrucțiuni dacă ar fi implementate în setul de instrucțiuni MIPS? [ ] Pentru fiecare instrucțiune din tabel, găsiți cea mai scurtă și secvența de instrucțiuni MIPS care efectuează aceeași operație Exerciții Pentru următoarele sarcini, tabelul conține fragmente de cod de asamblare •IPS Va trebui să examinați fiecare fragment de cod și să vă familiarizați cu diferitele instrucțiuni de salt MIPS • coop Slt St deci Sil bne M Szero ElSE J !XM EISE addi Ss Ss SuDI Stl ml J LOOP OCNE • Р aodi SC SO OxA L P iddi Ss Ss sub' " M bne M $ L CP subl $tl ml Vih ml asa QP Bine | ) Să presupunem că pentru buclele scrise în limbajul de asamblare UIPS, registrul $ are o valoare inițială de Care va fi valoarea registrului $s Ar trebui să presupunem că valoarea inițială a registrului $$ este zero? [ ] Scrieți o subrutină C echivalentă pentru fiecare dintre bucle, presupunând că registrele $sl, $s , lt și $ corespund cu „numărul variabilelor A, B și tanp ( ] Pentru buclele prezentate mai sus, scrise în limbajul de asamblare M PS, registrul $ este inițializat la N Câte instrucțiuni MIPS vor fi executate? Exercițiul Pentru următoarele sarcini, tabelul conține codul C Va trebui să convertiți instrucțiunile C în instrucțiuni din limbajul de asamblare MIPS Du-te"Ch'- ; t ( Din a] • b * a a •• ; eu ( ) Desenați o diagramă de flux pentru codul C afișat ( | Traduceți codul C afișat în codul de asamblare MIPS Folosiți cât mai puține instrucțiuni posibil, cu condiția ca variabilele a, b, i, j să fie reprezentate respectiv prin registre $s , isl, StO, Stl În În plus, pentru a stoca adresa de bază a matricei , utilizați registrul $s J Câte instrucțiuni MIPS sunt necesare pentru a implementa codul C? Care va fi numărul total de instrucțiuni MIPS executate Capitolul Instrucțiuni: Limbajul computerului bucla se termină dacă variabilele a și b au valori inițiale de și I iar elementele sale de matrice vor avea valori inițiale zero? Pentru următoarele sarcini, tabelul conține fragmente de cod în limbajul de asamblare MIPS, va trebui să studiați fiecare fragment de cod și să vă familiarizați cu diferitele instrucțiuni de salt MIPS a „Și SsZ SsZ »S addl SSO SsO SUCI Stl Stl minere Stl USD în buclă b addi Stl SsO LOOP » Ssl O(SsO) »dd S$ S$ IS> lw Ssl (SsO) "dd SsZ SsZ Ssl add) SsO SSO tine Stl SsO L O₽ | ] Care este numărul total de instrucțiuni MIPS executate? [ | Traduceți buclele afișate în C, cu condiția ca registrul $ȘI să conțină variabila C întreagă ♦, registrul $$ conține* variabila C întregă resuH, iar registrul $$ conține adresa de bază a matricei de valori întregi ChegArgay [ ] Rescrieți bucla în limbajul de asamblare MIPS pentru a reduce numărul de instrucțiuni MIPS executate Exercițiul Pentru următoarele sarcini, tabelul conține codul funcției în limbaj C Să presupunem că prima funcție din tabel este numită prima Va trebui să traduceți codul C al acestor proceduri în codul limbajului de asamblare MIPS [ ] Implementați codul C afișat în tabel în codul de asamblare MIPS Câte instrucțiuni MIPS sunt necesare pentru a executa funcția * Exercițiul ' [ | Funcțiile pot fi adesea implementate de către compilator ■ inserându-le în cod comun O astfel de funcție inline reprezintă co-corpul funcției copiate în spațiul programului și evită suprasolicitarea apelării funcției Implementați un „inline” e/; ut afișat în tabelul de coduri C în codul de asamblare MIPS Cât este numărul de instrucțiuni din limbajul de asamblare MIPS necesare pentru a executa o funcție? Să presupunem că valoarea inițială a variabilei C n ^■> [ ] Pentru fiecare apel de funcție, afișați conținutul stivei după i o, deoarece funcția a fost deja apelată, cu condiția ca pointerul stivei să fie setat inițial la adresa x ffffffc și convențiile pentru utilizarea „zhtr” afișate în tabel Următoarele trei probleme din acest exercițiu folosesc funcția f, care este „^’tu” și o altă funcție func Codul pentru funcția C func a fost deja compilat • modul fugpy utilizând convenția de apelare disponibilă în MIPS, la cinch în tabel Declarația funcției func conține linia int func( int b) Funcția f are următorul cod • int f("nt a int t> tnt c)( retum f>jnc(func(a b> c: • Int f(>nt ai« b int c return fjncti [ Traduceți funcția f în limbajul de asamblare MIPS folosind -p în această convenție de apelare MIPS, prezentată în Tabelul Dacă doriți să utilizați registrele JtO până la I , utilizați mai întâi registrele mai mici ) Este posibil să se utilizeze o optimizare folosind așa-numitul apel de coadă în această funcție? Dacă nu apoi explica de ce Și dacă da atunci care va fi diferența în numărul de instrucțiuni executate în f atunci când utilizați fără a utiliza o astfel de optimizare? J Ce știm despre conținutul registrelor I , Is , Ira și $sp »ie- direct înaintea funcției dumneavoastră f creat la executarea sarcinii , va returna controlul programului principal? Trebuie amintit că cunoaștem cu adevărat conținutul funcției f, dar putem judeca funcția func doar după linia declarației sale Exercițiul Acest exercițiu folosește apeluri recursive de procedură Pentru următoarele sarcini, tabelul conține un fragment de cod de limbaj de asamblare care calculează factorialul unui număr Dar există erori în intrările din tabel pe care va trebui să le corectați Capitolul Instrucţiuni Limbajul computerului I FAPT a Ssp Ssp X$Fd aodi StO StO - X» FAPT Iw SaO (Ssp) În Sara otlsp) aodi Ssp Ssp nu) SvO SaO SvO jr Sra [ ] Programul de limbaj de asamblare de mai sus M PS calculează factorialul unui număr dat Acest număr întreg este trecut în registru iar rezultatul este returnat în registrul SvO În codul de asamblare, există mai multe erori Corectați aceste erori [ ] Să presupunem că pentru programul factorial de mai sus, valoarea introdusă a fost Rescrieți programul factorial după cum urmează pentru a-l face să funcționeze fără a utiliza apelul recursiv)" Limitați utilizarea registrelor la intervalul SsO-Ss Care* va fi numărul total de instrucțiuni necesare pentru a finaliza rezolvarea problemei în comparație cu versiunea recursivă a programului care a calculat factorialul? [ ] Afișează conținutul stivei după fiecare apel la funcție când valoarea de intrare este Pentru următoarele sarcini, tabelul conține un fragment de cod în limbaj de asamblare care calculează seria Fibonacci Dar există erori în intrările din tabel pe care va trebui să le corectați Exercițiile • F B add' $C Jso - Sw Jra O(Ssp) SW JS (Jsp) sw Iad tSspî USD HO JaO beq JtO wn JSYU / JaO W JUIT adauga> JaO JaO ial П adauga' JslJ" W addi JaO JaO- jal F B adauga / / jsl UIT Jra OIJspI 'W JaO 'Jsp) lw Jsl (JSP) adăugați Jsp Jsp Jr Jra PV add' Jsp Jsp Sw Jra O(Jsp) Sw J$ (lspl JaO Programul de limbaj de asamblare MIPS prezentat calculează seria Fibonacci pentru un număr dat Acest număr întreg este trecut în registrul SaO > rezultatul este returnat în registrul J/ Există mai multe erori în codul de asamblare Corectați aceste erori ] Să presupunem că pentru programul de calcul seria Fibonacci prezentat, valoarea introdusă este Rescrieți programul de calcul astfel încât să funcționeze fără a utiliza un apel recursiv Limitați utilizarea registrelor la intervalul $s -Ss Care va fi numărul total de instrucțiuni folosite pentru a finaliza soluția dvs la problema în comparație cu versiunea recursivă a programului seria Fibonacci? [ ] Afișează conținutul stivei după fiecare apel de funcție cu o valoare de intrare de Capitolul Instrucțiuni: Limbajul computerului Exercițiul Să presupunem că stiva și segmentele de date statice sunt goale și că ) retum resull leaf fvnction n( )* int » • int y • int a; i * ny functîon(x "y global) int "y functiondnt X int y) ( return x y [ ] Afișați conținutul stivei și conținutul segmentelor de date statice după fiecare apel de funcție [ | Scrieți codul M PS pentru programele C în tabelul următor ( ) Scrieți codul MIPS pentru programele C în tabelul pe care l-ați furnizat dacă funcția frunză poate folosi registre temporare (StO, Stl, etc ) Următoarele trei sarcini din acest exercițiu tratează o funcție scrisă în limbajul de asamblare MIPS conform convenției de apelare, indicație" din Tabelul : af Sub ssO SaO Se sil SvO SsO Oxl a )■ SsO OtSsp) «II SSO * opt Către Sra [ ] Există o eroare în acest cod care întrerupe redirecționarea apelurilor Ml PS ■ Ce este această eroare și cum o pot remedia? ] Care ar fi echivalentul C al acestui cod? Să presupunem că ;o în versiunea C a acestei funcții folosește argumente numite a b cu etc [ ] În locul unde este apelată această funcție, înregistrează *a Sal Sa și Ia au valorile , respectiv și Care va fi valoarea returnată de »ș scn? Să presupunem că funcția e, apelată de la funcția f, returnează întotdeauna Convertiți șirurile în valori zecimale ASCII octet [ ] Convertiți șirurile în Unicode pe biți (folosind notația hexazecimală și setul de caractere Latine de bază) Următorul tabel prezintă valorile hexazecimale ale caracterelor ASCII ( ] Convertiți valorile hexazecimale ASCII în text Exercițiul În acest exercițiu, veți scrie un program în limbaj de asamblare MIPS care convertește șirurile în formatul numeric prezentat în tabel S'rocky din numere zecimale întregi pozitive neck numere întregi gnddadecimale cu complement a doi ] Scrieți un program în limbaj de asamblare MIPS pentru a converti un șir de numere ASCII într-un număr întreg, urmând condițiile date Capitolul Instrucţiuni, limbajul calculatorului nu sunt enumerate în tabelul de mai sus Programul dumneavoastră trebuie să presupună că registrul SaO conține adresa unui șir terminat în nul cu o combinație de cifre în intervalul de la la Programul dumneavoastră trebuie să calculeze echivalentul întreg al acestei unități Să presupunem că adresa x conține următoarele date (în hexazecimal); I yuoooooo ~ Іі ; I se [ Ce valoare este stocată la adresa indicată de registrul St ? P | k-dpv-mult că memoria indicată de St a avut inițial valoarea xFFFF FFFF [ ] Să presupunem că adresa x conține următoarele date (în hexazecimal): Eu oooo oooo Țeo i așa | asa si asa Ce valoare este stocată la adresa indicată de registrul I ? Să presupunem că inițial în memoria specificată de St a fost stocată valoarea x [ ] Să presupunem că adresa x conține următoarele date (în hexazecimal): Eu yooooooo |ii [oo ~~ |oo [ff Ce valoare este stocată la adresa indicată de registrul St ? Să presupunem că memoria indicată de St a avut inițial valoarea x Exercițiul În acest exercițiu, veți explora convertoarele pe de biți utilizate în MIPS Pentru următoarele sarcini se vor folosi date binare, citind > în tabel Exercițiul ■ OOOO OOOO OOOO B PI nil '/, [ | Scrieți codul MIPS care creează constantele Poate fi folosită o singură instrucțiune de ramură pentru a ■- „a învăța adresa contorului de program prezentată în tabelul de mai sus, - până când valoarea curentă a contorului de programe (PC) este x ? | | Este posibil să folosiți o singură instrucțiune de transfer condiționat; la pentru a obține adresa contorului de programe afișată în fața de mai sus dacă valoarea curentă a contorului de programe (PC) este x '“' [ ] Poate fi folosită o singură instrucțiune de transfer condiționat pentru a obține adresa contorului programului prezentat în mai sus ■zhiiiiiis dacă valoarea curentă a contorului programului (PC) este x '* [І | Scrieți codul MIPS care creează constante de de biți ■ și le stochează în registrul Stl, cu condiția ca câmpul „imediat” din instrucțiunea MIPS să aibă o lățime de numai S biți Pentru următoarele sarcini, va fi utilizat codul de asamblare M PS prezentat în tabel L U ON x * ori StO : x b OGI IO IO x iui sto oxigs* ] Care va fi valoarea registrului StO după executarea secvenței de cod prezentate mai sus? , , [ J Scrieți codul C care este echivalent cu codul limbajului de asamblare prezentat în tabel, cu condiția ca cea mai mare „constantă care poate fi încărcată într-un registru de de biți să nu fie mai mare de biți Exercițiul În acest exercițiu, veți explora intervalele de instrucțiuni MIPS pentru sărituri condiționate și necondiționate Următoarele sarcini folosesc date hexazecimale din tabel - x QxFfFCOOOO І [І | Câte instrucțiuni de sărituri condiționate (fără a folosi instrucțiuni de sărituri necondiționate) ar fi necesare pentru a obține adresa afișată în tabelul de mai sus dacă contorul de programe (PC) conține adresa x ? Capitolul Instrucţiuni: Limbajul computerului [ ] Câte instrucțiuni de sărituri necondiționate (fără a utiliza instrucțiuni de sărire a registrului sau instrucțiuni de sărituri condiționate) ar fi necesare pentru a obține adresa afișată în tabelul de mai sus dacă contorul de program (₽C) conține adresa x ? [ Pentru a reduce dimensiunea programelor MIPS, dezvoltatorii M PS au decis să reducă dimensiunea câmpului de valoare imediată (nteOia- în instrucțiuni de tip I de la la biți Câte instrucțiuni de ramificare condiționată ar fi necesare pentru a obține adresa afișată în tabelul de mai sus dacă contorul de programe (PC) conține adresa x ? Pentru următoarele sarcini, vor fi utilizate modificările aduse arhitecturii setului de instrucțiuni MIPS si rogis-ditch b (m nicio valoare și adresa nedefinite (immediaie și adresa) [ ] La schimbarea setului de instrucțiuni al unui procesor MIPS, trebuie să se schimbe și formatul instrucțiunii Care va fi efectul fiecărei modificări asupra intervalului de adrese din instrucțiunea beq? Presupune că instrucțiunile en rețin „clay biți, iar orice modificări referitoare la formatul instrucțiunilor de tip I sunt exprimate doar în pas crescător sau descrescător al valorii directe (i” reci a te) a instrucțiunii beq , - [ ] La schimbarea setului de instrucțiuni MIPS-npouetvopa, trebuie să se schimbe și formatul instrucțiunii Care va fi impactul asupra intervalului de adrese al instrucțiunii de ramificare necondiționată pentru fiecare dintre modificări? Presupune că toate instrucțiunile au păstrat o lungime de de biți și orice modificări ale formatului instrucțiunilor de tip J sunt reflectate doar în câmpul de adresă al instrucțiunii de ramificare necondiționată ] | La schimbarea setului de instrucțiuni MlPS-nponeccofs, trebuie să se schimbe și formatul instrucțiunii Pentru fiecare m modificare, care va fi efectul asupra domeniului de adrese a unei instrucțiuni de salt de registru, având în vedere că fiecare instrucțiune trebuie să aibă o lungime de de biți? Exercițiul Următoarele sarcini vor folosi studiul diferitelor moduri de adresare în arhitectura setului de instrucțiuni MIPS Aceste moduri diferite de adresare sunt enumerate în tabel Înregistrați adresare rt Adresare relativă prin comandă s-geimics [ ] Tabelul arată diferitele moduri de adresare ale setului de instrucțiuni MIPS Dați un exemplu de instrucțiuni MIPS care arată modurile de adresare MIPS Exercițiile [ Ce tip de format este folosit pentru instrucțiunile numite ari în sarcina ? [ ] Listați toate punctele forte și punctele slabe ale unei anumite adrese MIPS apăsați Scrieți un cod MIPS arătând aceste avantaje și dezavantaje Următoarele sarcini vor folosi codul de asamblare MIPS conceput pentru a explora toate punctele forte și punctele slabe ale câmpului imediat în instrucțiunile MIPS de tip I: L x x IUI ori IO I I b x x ' la I x -; x nu" [ ] Arată pentru fiecare instrucțiune MIPS reprezentarea sa binară ca număr hexazecimal | Prin reducerea dimensiunii câmpurilor imediate în instrucțiuni de tip I și J puteți economisi numărul de biți necesari pentru a reprezenta instrucțiuni Rescrieți codul MIPS prezentat mai sus, după cum urmează astfel încât să reflecte următoarele modificări, câmpul imediat al instrucțiunilor de tip I a căpătat o dimensiune de biți, iar aceeași cale a instrucțiunilor de tip J a început să conțină biți În acest caz, trebuie să faceți fără a utiliza instrucțiunea Iul [ ] Câte instrucțiuni MIPS suplimentare vor fi necesare pentru a vă executa codul din sarcina în comparație cu codul afișat în tabel? Exercițiul Următorul cod de asamblare M PS este pentru blocare încercați MQV MOV LI LL SC SC BEQZ MOV MOV R R R R R CR ) R O(R ) R O(R ) R Câte instrucțiuni trebuie executate pentru fiecare verificare și eșec de stocare condiționată? [ ] Explicați de ce codul de magazin condiționat de încărcare conectat afișat mai sus poate eșua [ ] Rescrieți codul de mai sus astfel încât să poată funcționa corect Asigurați-vă că nu există concurență pentru accesul la date Capitolul Instrucţiuni: Limbajul computerului Fiecare intrare din tabelul următor conține un cod și arată, de asemenea, conținutul diferitelor registre Notația „(Ssl)” denotă conținutul locației de memorie indicată de valoarea registrului $s I Codul de asamblare prezentat în fiecare tabel este executat în ciclurile de ceas corespunzătoare pe două procesoare paralele cu spațiu de memorie partajat A Procesor Procesor Loop Memory (Ssl) Procesor Procesor St Sto St Sto II (I ) ȘI II AXA!) SC IO OiJsl) Kio OSIP b Procesor Procesor Ciclu Procesor Memorie (Ssl) Procesor S» Stl sro S» Stl sto încercați să adăugați HO SO sst încercați acW IO Js HI (s$d II OCJsll SC I D(tsl) beqz I încercați sc I AXIS!) adăugați $s I t*qr I try [ ] Completați tabelul cu valorile registrului pentru fiecare ciclu de ceas dat Exercițiul Primele trei sarcini ale acestui exercițiu se referă la o bucată critică de cod care are următoarea formă: xk(lk); ooeraiik un)ock(lk); unde „operația” actualizează variabila partajată shvar folosind variabila locală (și* partajată) k, așa cum se arată mai jos: și shvar-shvar*", b shvar-m>n($hvar x) [ ] Scrieți un cod de asamblare MIPS pentru această secțiune critică cu condiția ca adresa variabilei k să fie în registru' Exercițiul ■t adresa variabilei shvar este în registrul Jal, iar valoarea variabilei ■ înregistrarea Ja Secțiunea dumneavoastră critică nu ar trebui să conțină nicio funcție tu->»•«, adică trebuie să includeți instrucțiuni MIPS pentru operațiunile de inserare - IoskO, deblocare - jnlockO, checkO și „pp Rezolvați problema din nou dar acum să efectuăm o actualizare »» Comparați performanța codului dvs din problemele » în cele mai favorabile condiții, presupunând că fiecare instrucțiune are nevoie de un ciclu pentru a fi executată Notă cel mai favorabil -shwiya înseamnă că perechea de instrucțiuni - SC, când trebuie să executați opera-■o osk (), întotdeauna reușește, blocarea este întotdeauna liberă și dacă saltul este osu-mute, atunci alegem calea care finalizează operația cu cel mai mic număr de instrucțiuni ■ executabile [ | Folosiți codul dvs de soluție ca exemplu și explicați ce se întâmplă când două procesoare încep să execute acest lucru aproape toate complotează în același timp, presupunând că fiecare procesor rulează doar o instrucțiune pe ciclu [ ] Explicați de ce în codul dvs din problema registrul Sal conține adresa variabilei sfivar și nu valoarea acelei variabile și de ce mp Ja conține valoarea variabilei x, nu adresa acesteia [ ] Dacă trebuie să efectuați atomic aceeași operație pe variabilele partajate (de ex shvarl și $hvar ) pe aceeași secțiune critică acest lucru se poate face cu ușurință folosind abordările din problema prin simpla plasare a ambelor actualizări între o operație de blocare și operația de deblocare corespunzătoare) Explicați de ce nu putem face asta folosind abordarea din problema adică de ce nu putem folosi o pereche • instrucțiunea - sc pentru a accesa ambele variabile partajate într-un mod garantat că ambele actualizări vor fi efectuate împreună, într-o singură operație atomică Exercițiul Pseudo-instrucțiunile de asamblare nu fac parte din setul de instrucțiuni MIPS și sunt destul de comune în programele MIPS Tabelul conține câteva instrucțiuni ossvdo MIPS, care, atunci când programul de asamblare rulează, sunt traduse în alte instrucțiuni de asamblare MIPS: L muta Itl St b t>eq Stl sll lOQP [ ] Pentru fiecare pseudo-instrucțiune, furnizați cea mai mică secvență posibilă de instrucțiuni MIPS reale care fac asta Capitolul Instrucţiuni: Limbajul computerului aceeași acțiune În acest caz, în unele cazuri poate fi necesar să se utilizeze registre temporare În tabel, mare se referă la unul pur care necesită de biți pentru reprezentarea sa, iar sna II la un număr care poate încadra în biți Tabelul conține câteva pseudo-instrucțiuni non-MIPS care, atunci când programul de asamblare rulează, sunt traduse în alte instrucțiuni de asamblare MIPS: la SsOv bh SaO ivO bucla ( ) Trebuie să fie editate instrucțiunile prezentate în tabelul de mai sus la momentul link-ului? De ce? Exercițiul Tabelul conține detalii privind structura celor două proceduri diferite În acest exercițiu, veți acționa ca program de legătură A Procedura A Procedura B Segment de text Adresă Instrucțiune Segment de text Adresă Instrucțiune lw YO OITSOI sw Sal O(Sqp) ial K Segment de date Conectați fișierele obiect de mai sus la -shape|și>antetul fișierului executabil Să presupunem că procedura A are dimensiunea segmentului de text x , dimensiunea segmentului de date x , iar procedura D are dimensiunea segmentului de text x , dimensiunea segmentului de date x | Ce restricții, dacă există, sunt impuse dimensiunii unui fișier executabil? ( | Descrieți înțelegerea dvs cu privire la limitările instrucțiunilor de salt condiționate și necondiționate De ce ar putea un asamblator să aibă probleme la implementarea directă a instrucțiunilor de salt condiționat ■ într-un fișier obiect? Exercițiul Primele trei probleme din acest exercițiu presupun că funcția s**ap, în loc de codul afișat în Listarea , este definită în C după cum urmează: [ | Convertiți această funcție în cod de asamblare MIPS [ ) Ce ar trebui schimbat în funcția de sortare? | | Ce modificări ar trebui făcute codului MIPS pentru jnar în sarcina dacă sortarea s-a făcut pe octeți de biți în loc de cuvinte pe de biți? Capitolul Instrucțiuni: Limbajul computerului Pentru celelalte trei probleme din acest exercițiu, să presupunem că funcția din Lista este modificată după cum urmează: a În loc de registrele t, se folosesc registrele s b În codul etichetat „or tst”, instrucțiunea tiltz este utilizată în loc de slt și bne (txanch op mai puțin de zero - salt dacă este mai mic de zero) [ Va afecta această modificare codul din Lista conceput pentru a salva și restaura registrele? | Câte mai multe (sau mai puține) instrucțiuni va avea ca rezultat această modificare la sortarea unui tablou de elemente deja sortat? [ ] Câte mai multe (sau mai puține) instrucțiuni va avea ca rezultat această modificare la sortarea unui tablou de elemente, deja sortat descendent (opus * gem generat de sorti))? Exercițiul Sarcinile din acest exercițiu se referă la următoarea funcție, care este definită în linia de cod pentru procesarea unui tablou a fnt findlint a[] int n int ")( lat ; w" return return - — b •nt countlint a[], int n, *nt ">( *nt res- int i; Gorn-O іI-n !♦*) res-res*l returnare res ) [ ] Convertiți această funcție în codul limbajului de asamblare MIPS [ ] Convertiți această funcție în cod C bazat pe n folosind pointeri [ ] Convertiți codul C bazat pe pointer din Problema în limbajul de asamblare M PS [ | Comparați, în condițiile cele mai nefavorabile, numărul de instrucțiuni executate pe iterație a buclei care nu este ultima, în c<> din codul dvs pe baza utilizării unui tablou din problema și în ioz iaino* a codului nostru bazat pe utilizarea pointerilor din problema Notă: cele mai nefavorabile condiții apar atunci când, dar condițiile de tranziție sunt alese de noi Exercițiul secvențe lungi de apeluri executate, adică dacă sunt utilizate ■ Instrucţiunea if, rezultatul testului condiţiei este returnat astfel încât calea este aleasă de ■■ un număr mare de instrucţiuni Dar dacă rezultatul verificării condiției duce la sfârșitul buclei, vom presupune că este aleasă calea, în care continuă yavl [ ] Ce s-ar schimba în răspunsul dumneavoastră la întrebarea , registrele StO St și SaOSa din convenția de apelare utilizate în M PS ar fi salvate la efectuarea apelurilor, similar cu registrele sa*—Is ? Exercițiul din tabelul de mai jos conține codul de asamblare ARM În următoarele sarcini, va trebui să traduceți codul ARM în cod de asamblare MIPS L moѵ gO " înjurând contorul de cicluri a valorii inițiale LOOP * rO d SU S r decrementează valorile contorului pe unitate HC LOOP dacă Z- repetarea ciclului i ROR H r „ ; rі • r se combină cu r [ ] Convertiți acest cod de asamblare ARM în asamblator MIPS, cu condiția ca registrele ARM r , h și r să conțină aceleași valori ca și MIPS înregistrează SsO, Ssl și, respectiv, Ss Folosiți registrele feminine dacă este necesar (KO, etc D-) | | Afișați câmpurile de biți care reprezintă instrucțiunile ARM pentru instrucțiunile de asamblare ARM afișate în tabelul -yshe Următorul tabel conține codul de asamblare MIPS Când rezolvați următorul cix for iach, va trebui să convertiți codul de asamblare MIPS în cod ARM si slt StO »s Ssl bit KO ASA DE FAMHAT adăugați SsO Ssl Ss? | | Potriviți conținutul tabelului de mai sus cu codul de asamblare ARM corespunzătoare secvenței codului de asamblare M PS ( ] Afișează câmpurile de biți care reprezintă codul de asamblare ARM Capitolul Instrucțiuni: Limbajul computerului Exercițiul Procesorul ARM are mai multe moduri de adresare diferite care nu sunt acceptate de MIPS Următoarele sarcini explorează aceste noi moduri de adresare a LDR rO [rі] go - pa "yap [g ] b IONIA gO (gі g g } "• - pa" yat [gO] g - lamt [g " ], g • p Definiți tipul modului de adresare a instrucțiunilor de asamblare ARM prezentate în tabelul de mai sus [ ] Pentru instrucțiunea de asamblare ARM prezentată mai sus, scrieți o secvență de instrucțiuni de asamblare MIPS pentru a efectua același transfer de date În următoarele sarcini, va trebui să comparați codul scrise folosind seturile de instrucțiuni ARM și MIPS Tabelul arată codul scris folosind setul de instrucțiuni AR M: L LOR du-te „Taolei descărcare Odată adresa taolei LOR rі * inițializarea contorului tsyakpa PENTRU r d purificare r r ADCX P iDR rA [r ] obține lrl operand addition AD r r r adaos cu r AOC rO rO * rimveniye sau obținerea următorului element din tabelul BS r gі la "ech * yae" "nici un contor de nichel pe unitate ЯЕ AOOc₽ dacă contorul de ciclu !- trece la AEO₽ yaoi gі r * rі - r se combină cu r [Y| Pentru ansamblul ARM prezentat mai sus, scrieți o procedură de asamblare MIPS echivalentă [ ] Care va fi numărul total de instrucțiuni de asamblare ARM necesare pentru a executa codul? Care va fi numărul total de instrucțiuni de asamblare MIPS necesar pentru a executa codul? [ | Să presupunem că CPI-ul mediu al unei proceduri de asamblare MIPS este egal cu CPI-ul mediu al unei proceduri de asamblare ARM, iar procesorul MIPS are o frecvență de operare de , ori mai mare decât a procesorului ARM, cu cât este mai rapid procesorul ARM de procesorul MIPS? Exercițiul Procesorul ARM are o modalitate interesantă de a susține stările imediate ale koi În acest exercițiu, sunt explorate caracteristicile care există în el Tabelul conține instrucțiuni ARM și ADO gz r r] iCh * gE-g "(g Scrieți codul MIPS echivalent pentru codul ARM prezentat mai sus - [ ] Rescrie-ți codul în asamblatorul M PS, păstrând numărul de instrucțiuni la minim, ținând cont de condiția ca registrul R să conțină o con-■ a cu valoarea [ ] Rescrieți codul în ansamblul MIPS minimizarea - - numărul de instrucţiuni, ţinând cont de condiţia ca registrul RI să conţină un con- • w a cu valoarea x Următorul tabel conține instrucțiunile MIPS adauga> ge G? * addi gz d * ] Scrieți echivalentul ansamblului ARM al codului de asamblare MIPS de mai sus Exercițiul - Acest exercițiu explorează diferențele dintre seturile de instrucțiuni MIPS și x > tabelul conține codul de asamblare x L mutat' Se$” *eh*] START deja mișcarea OOOOOOOO mov cx OOQOOOllb mov bx IHlOOOOb și ax o" sau ax cx [ ] Scrieți pseudocodul pentru această procedură [ ] Care ar fi echivalentul MIPS pentru această procedură? Tabelul conține instrucțiuni de asamblare x • mov ed" [e$i- *eb*J addea* x ( Afișați, pentru fiecare instrucțiune de asamblare, dimensiunea fiecăruia dintre câmpurile de biți care reprezintă instrucțiunea | | Scrieți echivalentul acestor instrucțiuni în limbajul de asamblare MIPS Exercițiul Setul de instrucțiuni x are un prefix REP care face ca instrucțiunea să fie repetată de un anumit număr de ori sau până când instrucțiunea este satisfăcută Capitolul Instrucţiuni Limbajul computerului anumită condiție Primele trei probleme din acest exercițiu se referă la următoarele instrucțiuni x : Interpretarea instrucțiunilor a „EP YV B Repetați până când ECX este zero Me Pentru ce ar fi folosită în mod normal această instrucțiune? [ | Scrieți codul MIPS efectuând aceeași operațiune, cu condiția ca MO să corespundă ECX, Sal să corespundă EOI, SaZ să corespundă I $ iar Sa corespunde lui EAX [ ] Dacă instrucțiunea x necesită un ciclu pentru a citi din memorie un ciclu pentru scrierea în memorie și o porecla pentru actualizarea fiecărui registru și dacă MIPS folosește un ciclu pe instrucțiune, care ar fi câștigul de viteză din utilizarea unei instrucțiuni simple x în loc de codul MIPS echivalent când este foarte important ESC? Să presupunem că timpul ciclului de ceas pentru x și MIPS este același Celelalte trei probleme din acest exercițiu se referă la următoarea funcție, care este dată în limbajul de asamblare C și x Pentru fiecare instrucțiune x , arată, de asemenea, lungimea sa în format de instrucțiune de lungime variabilă, precum și interpretarea acesteia (o descriere a ceea ce face) Trebuie remarcat faptul că arhitectura x are foarte puține registre în comparație cu MIPS, așa că convenția de apelare a x solicită împingerea ns de argumente în stivă Valoarea returnată de funcția x va fi transmis înapoi la codul de apel din registrul EAX Codul C codul hvv • fontul 'sh a Ini t>)( return a"b: I f push tebe drop tete • c>e* mov Xesp tebp change test t te mov Oxciteopl teax load th apr into tea" add OxB(Xebp ) tea* strat l-th apr c tea" pop tebp , kosstanoping tete ret vend f | ♦a-*a-*b f pjsh tebp pushing teto into ere* mov Xesp tebp pushing tesp i teop mov Bdebol leax tatr lth apr to tea" mov IZiXecp) Hesh game -then apr to tec" mov (teax) led" >arp *aa tea" add (tccx) ledx add *b and led" mov tedx (teax) store teox a *a mov tfdx ( tecx) salvați ted" " *t> pop tebp aosstaiowpeiae tebp ret "ecran | | Convertiți această funcție în codul limbajului de asamblare MIPS Comparați dimensiunea (câți octeți de memorie vor avea instrucțiunile) pentru acest cod x și codul dvs MIPS Exercițiul [ ] Dacă într-un ciclu procesorul poate executa două instrucțiuni MB TO este capabil să citească cel puțin într-un ciclu două consecutive tracţiune Explicați cum s-ar face acest lucru în MIPS și în x [ | Dacă fiecare instrucțiune MIPS are un ciclu și dacă fiecare instrucțiune x durează un ciclu, plus un ciclu pentru fiecare necesar în memorie sau în scris, care va fi câștigul în timp din utilizarea x în loc de MIPS? Să presupunem că timpul ciclului ceasului este același ■■ lіya x la fel și MIPS și execuția funcției ia calea cea mai scurtă *> există o ieșire din fiecare buclă are loc imediat și fiecare instrucțiune este K "în direcția care duce la ieșirea din funcție) Rețineți că instrucțiunea ret din x citește adresa de retur din stivă Exercițiul ' Tabelul prezintă indicatorii IPC pentru instrucțiuni de diferite tipuri Aritmetica Zegrueki-conservare Pere'ode • Să presupunem că pentru execuția programelor date, se dă „bătaie conform instrucțiunilor: Instrucțiuni (în milioane) Aritmetica Încărcare-economisire Tranziția Care va fi timpul de execuție pentru procesor dacă frecvența de operare este G GHz? [ ] Să presupunem că setul de instrucțiuni a fost mărit cu instrucțiuni aritmetice noi, puternice În medie, prin utilizare ■ iar la instrucţiuni aritmetice mai puternice a devenit posibilă reducerea ■a % a numărului de instrucţiuni aritmetice necesare executării ■programelor dar cu prețul unei creșteri de numai % a timpului ciclului de ceas O astfel de alegere de design poate fi considerată reușită? De ce? | ] Să presupunem că s-a găsit o modalitate de a dubla arbitraritatea instrucțiunilor aritmetice Care este câștigul general de viteză pentru aparat pentru gât? Dar ce se întâmplă dacă există o modalitate de a crește performanța instrucțiunilor Fifmethins de ori? Tabelul arată proporțiile de execuție ale diferitelor tipuri de instrucțiuni Tranziție aritmetică încărcare-salvare • % % b % % Capitolul Instrucţiuni: Limbajul computerului ( ] Pentru combinația de tipuri de instrucțiuni prezentate mai sus, găsiți CPI-ul mediu dacă instrucțiunea de aritmetică durează două cicluri, instrucțiunea de stocare de încărcare durează cicluri și instrucțiunea de ramificare condiționată durează cicluri | În medie, câte cicluri pe instrucțiune aritmetică pot fi realizate cu o creștere de % a performanței, cu condiția ca performanța instrucțiunilor de încărcare-magazin și ramificare să nu fie crescută? ( ] În medie, câte cicluri pe instrucțiune aritmetică pot fi realizate cu o creștere cu % a performanței, presupunând că performanța instrucțiunilor de încărcare-magazin și ramificație nu este crescută? Exercițiul Primele trei probleme din acest exercițiu se referă la o funcție afișată în limbajul de asamblare MIPS Din păcate, programatorul care a creat această funcție a fost în iluzia că MIPS se referă la mașini cu adresare de cuvinte și nu adresare de octeți a int * Arhitectura M PS necesită ca accesele de dimensiunea cuvântului (ii și sw) să fie aliniate la cuvinte, adică cei doi biți cei mai mici ai adresei trebuie să fie zero Dacă adresa nu este aliniată la cuvinte, procesorul lansează o excepție de „eroare de magistrală” („bus memo”) Explicați modul în care aceste cerințe de aliniere afectează performanța acestei funcții L [ ] Funcționează această funcție dacă „a” este un pointer și începutul unui tablou format din elemente de un octet, iar instrucțiunile % și $shbudu* sunt înlocuite de instrucțiunile lb (încărcare un octet) și sb (salvați un octet Exercițiul Notă: instrucțiunea IB citește un octet din memorie, efectuează extinderea semnelor • plasează rezultatul în registrul de destinație, iar instrucțiunea sb stochează registrul de ordin inferior în memorie [ ] Schimbați codul pentru a-i permite să funcționeze cu numere întregi de de biți Celelalte trei sarcini din acest exercițiu se referă la un program care alocă memorie unei matrice, umple matricea cu numere și apelează funcția prezentată în Listarea și apoi scoate conținutul matricei Funcția u a acestui program are următoarea formă (în limbajul de asamblare C și Ml PS): Tip de cod de funcție în limbajul C MIPS-jarsia function maUn •"M)( mt •" mt n- v Care este conținutul (valorile tuturor celor cinci elemente) ale matricei * chiar înainte de instrucțiunea *jal sort" când este executat codul funcției pyip? ] Care este conținutul tabloului v chiar înainte ca sortarea să intre în bucla exterioară pentru prima dată? Să presupunem că la începutul apelului funcției paip (chiar înainte de execuția instrucțiunii "h SsO " Registrele Ssp SsO Ssl, Ss și Ss au valorile x , , și , respectiv ] Care este conținutul tabloului de cinci elemente indicat de y imediat după revenirea funcției o » O O O O (O) O (O) Q (O) ( ) ( ) o ( ) *cu Adăugarea binară care arată transporturile de la dreapta la stânga La dreapta „ și sunt adăugate într-o serie și, ca rezultat, suma este , iar transportul de la acest bit este Chivt Prin urmare, operația pentru al doilea bit din dreapta va fi * * Ca rezultat , pentru ordinul de sumă □ , acesta va fi cu un carry A treia cifră va fi suma * * dând transferul şi valoarea bitului sumei Al patrulea bit se va obţine în urma operaţiei * * care se va adăuga până la fără transport Amintiți-vă că un overflow are loc atunci când rezultatul opera-avii nu poate fi reprezentat pe hardware-ul disponibil, în acest caz un cuvânt -) biți Când poate apărea o revărsare de adiție? Când se adaugă operanzi cu semne diferite, depășirea nu poate apărea Motivul pentru asta că suma nu poate fi mai mare decât unul dintre operanzi de ex * • - Deoarece operanzii se vor potrivi în de biți și suma nu depășește dimensiunea operandului, suma trebuie să se potrivească și în de biți Prin urmare, dacă operanzii pozitivi și negativi sunt egali, nu se poate produce depășirea Există restricții similare cu privire la apariția depășirii în scădere, dar pe principiul opus: atunci când semnele operanzilor sunt odu-choke, depășirea nu poate apărea Amintiți-vă că x - y „x ♦ (~y) întrucât scăderea se realizează prin schimbarea semnului celui de-al doilea operand și adunarea ulterioară Prin urmare, atunci când scădeți folosind operanzi cu aceleași semne, totul se rezumă la adăugarea de operanzi cu semne diferite Din paragraful anterior se știe că nici în acest caz nu se poate produce preaplin Este bine că știm când nu se pot întâmpla depășirile de adunare și scădere, dar de unde știm când se poate întâmpla? Evident, adăugarea sau scăderea a două numere de de biți poate produce un rezultat care necesită de biți pentru a se exprima complet Absența celui de-al -lea bit înseamnă că atunci când are loc o depășire, bitul de semn este umplut cu valoarea rezultatului, și nu cu semnul corespunzător Deoarece avem nevoie doar de un bit suplimentar, doar bitul de semn va avea o valoare greșită Prin urmare, depășirea are loc atunci când două numere pozitive sunt adăugate împreună și suma este un număr negativ sau invers Aceasta înseamnă că există un transfer la bitul de semn Un depășire de scădere apare atunci când un număr negativ este scăzut dintr-un număr pozitiv și produce un rezultat negativ sau când un număr pozitiv este scăzut dintr-un număr negativ și produce un rezultat pozitiv Inseamna ceea ce se întâmplă este un împrumut de la semn bit Combinațiile de operații, operanzi și rezultate de depășire sunt prezentate în Figura Capitolul Aritmetica pentru calculatoare Tabelul Condiții de depășire pentru adunare și scădere Operațiunea Operand A Operand B Rezultat depășire A-B > > A-B > > Unitate logică aritmetică (ALU) Echipament care efectuează adunări și scăderi, precum și, de obicei, operații logice, cum ar fi AND și SAU Excepție Denumit și întrerupere Un eveniment neplanificat care întrerupe execuția unui program; folosit pentru a detecta preaplinul Întrerupe O excepție care apare în afara procesorului (Unele arhitecturi folosesc termenul -întrerupere- pentru toate excepțiile) Metodele de detectare a depășirii tocmai discutate au vizat utilizarea numerelor complementului a doi în computer Dar ce zici de rep "cântarea când folosești numere întregi fără semn? Aceste numere sunt de obicei folosite pentru adresarea memoriei în cazul în care depășirea este ignorată Prin urmare, designerii de computere trebuie să ofere o modalitate de a ignora și recunoaște selectiv depășirile În MIPS, soluția este de a avea două tipuri de instrucțiuni aritmetice pentru a recunoaște aceste două opțiuni: ♦ Adunarea (acI) și adunarea directă (addi) și scăderea (sub) aruncă excepții de depășire ♦ Adunarea fără semn (addu), adunarea directă fără semn (ald ) și scăderea fără semn (suta) nu aruncă o excepție de depășire Deoarece overflow-urile sunt ignorate în C, compilatoarele MIPS C vor genera întotdeauna versiuni nesemnate ale instrucțiunilor aritmetice AI addiu si suta, indiferent de tipul variabilelor Dar compilatoarele MIPS Fortran aleg instrucțiunile aritmetice adecvate în funcție de tipul de operanzi Echipamentul care efectuează adunarea și scăderea se numește unitate aritmetică logică (ALU) Interfață hardware și software Proiectanții de computere trebuie să decidă cum să gestioneze depășirile aritmetice Deși unele limbi, care includ C și Java ignorați depășirea întregului, alte limbi, cum ar fi Ala și Fortran, necesită programului să obțină informațiile corespunzătoare Programatorul sau mediul software trebuie apoi să decidă ce să facă atunci când are loc o depășire MIPS definește un overflow cu o excepție, numită și întrerupere pe multe computere O excepție, sau întrerupere, este în esență un apel de procedură neprogramată Adunarea și scăderea A „per” a instrucțiunii care a provocat depășirea este stocată într-un registru, iar computerul> „merge la o adresă predefinită pentru a apela subrutina corespunzătoare pentru a gestiona această excepție (Secțiunea discută excepțiile în detaliu, iar capitolele și descriu alte situații în care apar excepții și întreruperi ) ■și stochează adresa instrucțiunii care a cauzat excepția, MIPS are un registru numit contorul de programe de excepție (EPC) What- s software-ul MIPS a avut capacitatea de a reveni la instrucțiunea de problemă folosind un salt de registru, de a copia EPC-ul în registrul de valori general, este folosită instrucțiunea de mutare din controlul sistemului - cifra multiplicatorului este reprezentată de unul, sau ♦ punerea ( * multiplicand) la locul potrivit dacă cifra multiplicatorului este setată la zero Deși exemplul zecimal prezentat mai sus folosește în mod deliberat * și , atunci când înmulțiți numere binare, ar trebui să fie întotdeauna folosit doar >■ și, prin urmare, numai aceste două opțiuni sunt întotdeauna oferite Înmulțirea În mod tradițional, următorul pas după acoperirea elementelor de bază ale înmulțirii este furnizarea de hardware de multiplicare extrem de optimizat Nu vom urma această tradiție, crezând că veți obține o înțelegere mai profundă a problemei analizând dezvoltarea echipamentelor de multiplicare și a algoritmului pe câte generații Deocamdată, să presupunem că înmulțim doar numere • și sudice Versiunea de serie a algoritmului de multiplicare și hardware Designul Zga imită algoritmul care a fost studiat la școală, echipament-anis este prezentat în fig Echipamentul este reprezentat astfel încât fluxul de ulei să fie direcționat de sus în jos Să presupunem că multiplicatorul se află în registrul Multiplier* pe de biți și registrul Produs pe de biți are o valoare inițială de zero pentru a obține produse intermediare În de pași, multiplicatorul de biți va fi mutat cu de biți la stânga Prin urmare, aveți nevoie de un registru Multiplicand de de biți care începe cu un Multiplicand de de biți în jumătatea dreaptă și zerouri în jumătatea stângă Apoi, acest registru va fi deplasat cu un bit la stânga cu fiecare pas pentru a alinia multiplicandul cu suma acumulată în registrul de produs pe de biți Orez Prima versiune a echipamentului de multiplicare Registrul multiplicatorului Unitatea Aritmetică Logică (ALU) și registrul Produs au o valoare de de biți, iar doar registrul Multiplicator este format din de biți de cifre ale Multiplicandului este plasat inițial în jumătatea dreaptă a registrului Multiplicator și este deplasat la stânga prin un bit cu fiecare pas Multiplicatorul este deplasat în direcția opusă cu fiecare pas Algoritmul începe cu o valoare a produsului zero Blocul de control decide când să deplaseze conținutul registrelor Multiplicator și Multiplier și când să scrie o nouă valoare în Registrul produselor Capitolul Aritmetica pentru calculatoare Pe fig Figura prezintă cei trei pași de bază necesari pentru fiecare bit Bitul cel mai puțin semnificativ al unui multiplicator (MultiplierO) determină dacă multiplicandu-ul este adăugat la registrul Produs Deplasarea la stânga în a doua etapă are ca rezultat mutarea operanzilor intermediari la stânga, la fel ca înmulțirea cu creion și hârtie Schimbarea la dreapta în al treilea pas ne oferă următorii biți ai multiplicatorului pentru a testa următoarea iterație Acești trei pași sunt repeți de de ori pentru a obține produsul Dacă fiecare pas necesită un ciclu de ceas, acest algoritm pentru înmulțirea a două numere de de biți ar necesita aproape de cicluri de ceas Importanța relativă a operațiilor aritmetice precum înmulțirea variază de la program la program, dar adunarea și calculul pot fi, de asemenea, de cinci până la o sută de ori mai utile decât înmulțirea în cazuri diferite În consecință, în multe aplicații, multiplicarea poate necesita un număr mare de cicluri de ceas fără un impact semnificativ asupra performanței Cu toate acestea, legea lui Am a dat a (vezi secțiunea ) ne amintește că chiar și utilizarea moderată a operațiunilor lente poate limita performanța Acest algoritm și hardware este destul de ușor de îmbunătățit, realizând un ciclu de ceas pe pas Accelerația are loc datorită execuției paralele a operațiilor: Multiplicatorul și Multiplicatorul sunt deplasate chiar în momentul în care Multiplicatorul este adăugat la Produs, dacă Bitul Multiplicator este Rămâne doar să ne asigurăm că deplasarea la dreapta lui Multiplicatorul este urmărit și obțineți versiunea pre-schimbată a Multiplicatorului De obicei echipamentul trece prin optimizări și mai profunde care vizează înjumătățirea lățimii sumatorului și a registrelor, determinând unde se află partea nefolosită a registrelor și adunatoarelor Echipamentul modificat este prezentat în fig Interfață hardware și software Înlocuirea operațiilor aritmetice cu o deplasare poate fi folosită și la înmulțirea cu constante Unele compilatoare înlocuiesc operația de înmulțire cu constante scurte cu o serie de deplasări și adunări Deoarece deplasarea unui bit la stânga reprezintă de două ori numărul din baza doi, deplasarea biților la stânga are același efect ca și înmulțirea cu doi După cum sa menționat în Capitolul , aproape fiecare compilator va optimiza codul simplificând-o prin înlocuirea deplasării la stânga cu înmulțirea cu doi Exercitiul Algoritm de multiplicare Folosind numere de biți pentru a economisi spațiu, înmulțiți (,« „ un , la , Înmulțirea fig arată valoarea fiecărui registru pentru fiecare treaptă, indicată în ciotul corespunzător din fig , cu o valoare finală de sau i; Fontul aldine este folosit pentru a afișa valorile majuscule care s-au schimbat în timpul unui anumit pas Orez E E Primul algoritm de multiplicare folosind hardware-ul prezentat în Fig Dacă cifra cea mai mică semnificativă a multiplicatorului este egală cu unu Multiplicatorul ar trebui adăugat la Produs Dacă nu ar trebui să treceți la pasul următor În următorii doi pași, multiplicatorul * o este deplasat la stânga și multiplicatorul la dreapta și acești trei pași se repetă de de ori Capitolul Aritmetica calculatorului Orez Modernizarea este o versiune diferită a echipamentelor de multiplicare Comparați-l cu versiunea porno din Fig Cazul multiplicatorului Registrul ALU și Multiplier au o valoare de de biți și doar registrul Product rămâne pe de biți Acum Produsul este deplasat la dreapta Registrul separat Multiplier a fost, de asemenea, desființat de biți pentru a conține transportul sumatorului, dar este afișat ca de biți pentru a evidenția modificările față de Fig ) Multiplicator de pași de iterație Multiplicand produs Valori inițiale ooif Ia »> Proev ■ Alegeți ♦ Înmulțiți UN OOOO Schift Multiplicator Stânga OOP Schimbarea multiplicatorului la dreapta OOO® oooo ooyu Іа ■> Promza - Proiza ♦ Multiply ooooooio Schift Multiplicator stânga : Deplasare multiplicator dreapta OOO® -> Operare gol Shift Multiplicator stânga oooo oooo Deplasare multiplicator la dreapta OOO® oooo ' => Operare gol oooo oooo OOOOOIO Shift Multiplicator Stânga oooo oooo Shift Multiplicator dreapta oooo ooooooio Orez Un exemplu de multiplicare folosind algoritmul prezentat în fig B-vizualizat pentru a determina următorul pas, cu caractere aldine Înmulțirea Înmulțirea numerelor cu semne De atunci avem de-a face cu numere pozitive Cel mai simplu mod • clipiți Modul de lucru cu numerele cu semn este să le convertiți mai întâi în numere pozitive și apoi să restaurați semnele originale Dintr-un curs de liceu, știm că trebuie să schimbi semnul fonației doar dacă factorii au semne diferite Se pare că ultimul algoritm va funcționa pentru numerele cu semne când '-tovia că ne amintim că avem de-a face cu numere care au un număr infinit de cifre și le reprezentăm doar folosind un format de de biți, prin urmare, pentru a extinde semnul produsului pentru numerele cu semne, vom avea nevoie de pași de schimbare Când acțiunile conform la algoritm sunt completate, cuvântul • biții mai puțin semnificativi va conține produsul pe de biți Înmulțirea vitezei Legea lui Moore a făcut ca creșterea resurselor să fie atât de mare încât proiectanții de hardware pot acum construi hardware mai rapid pentru a le folosi pentru multiplicare Înmulțirea rapidă este posibilă prin furnizarea efectivă a unui sumător de de biți pentru fiecare bit al multiplicatorului: o valoare de intrare este multiplicatorul procesat cu o operație AND pe bitul multiplicator, iar cealaltă este valoarea de ieșire a sumătorului anterior Este destul de evident că ieșirile acelor sumatoare care sunt în dreapta ar trebui să fie conectate la intrările sumatoarelor din stânga, creând o secvență de sumatoare i O modalitate alternativă de organizare a acestor de sumatori este un arbore paralel, similar cu cel prezentat în Fig În loc să așteptați adăugările I, trebuie să așteptați doar jurnalul( ) sau cinci adăugiri pe de biți Figura arată că acesta este cel mai rapid mod de a conecta sumatorii De fapt, înmulțirea poate fi chiar mai rapidă decât cinci adunări, datorită utilizării adatoarelor care păstrează transportul și ușurinței de a transforma acest design, care poate suporta multe înmulțiri simultane (vezi capitolul ) Înmulțirea în MIPS În M PS xia a unui produs pe de biți, este furnizată o pereche separată de registre inline pe de biți, denumite hi și Lo Pentru a obține un produs semnat sau nesemnat, MIPS are două instrucțiuni: înmulțire (mult) și înmulțire fără semn (multu) Pentru a extrage un produs întreg pe de biți, programatorii folosesc instrucțiunea de mutare din Io (*Po) Asamblatorul MIPS are o pseudo-instrucțiune pentru multiplicare timp în care sunt definite trei registre de uz general și sunt generate instrucțiunile mf IO și „fhi” pentru a plasa produsul în registre Capitolul Aritmetica calculatorului Scurte concluzii Echipamentul de înmulțire se ocupă de ture și adunări simple, împrumutate din tehnica înmulțirii cu creion și hârtie predată în școală Compilatorii folosesc chiar instrucțiuni de schimbare pentru a multiplica cu " Interfață hardware și software Ambele instrucțiuni de multiplicare ale MIPS ignoră overflow, așa că verificarea dacă produsul este mai mare de de biți este specifică software-ului Nu a avut loc nicio depășire dacă ні are valoarea pentru mul tu sau repetă semnul Lo pentru mult Pentru a trece de la Hі la un registru general pentru a verifica depășirea, pot fi utilizate instrucțiunile de mutare ujht - mutare de la hi (mf hi) Orez Z v Echipament pentru multiplicare accelerată În loc să folosească un singur sumator pe de biți de de ori, acest echipament -desfășoară bucla- pentru a folosi sumatorul pe de biți și apoi le aliniază astfel pentru a reduce întârzierile la minimum Divizia Împărțiți „impera” Inversul înmulțirii este împărțirea, care apare în | > e' și necesită puțin mai multă ingeniozitate pentru a fi implementată Cu ea re Împărțiți și cuceriți (mt) Divizia > ție, există chiar posibilitatea de a efectua o împărțire extremă inacceptabilă din punct de vedere matematic la zero Pentru a reaminti numele operanzilor și algoritmul de împărțire predat în școală, să începem cu un exemplu de împărțire lungă folosind zecimale Din aceleași motive de simplitate care au fost folosite în cazul precedent, ne vom limita la cifrele zecimale sau I În exemplul folosit, μlo IO va fi împărțit la IO: O Privat Divizor , Divizibil - - , la restul Cei doi operanzi de împărțire, numiți Dividend și Divizor, și rezultatul, prin * ■ vaemyn Parțial, sunt urmați de un al doilea rezultat, care se numește Rest Luați în considerare un alt mod de a exprima relația dintre componentele -thm Dividend - Coeficient * Divizor + Rest Dividend Numărul de împărțit unde restul este mai mic decât divizorul Ocazional, programele folosesc instrucțiunea • ien pentru a obține restul, ignorând în același timp câtul Algoritmul predat la școală este de a încerca să descopere care este cel mai mare număr care poate fi scăzut, fiecare încercare rezultând cu o cifră de coeficient Exemplul nostru zecimal atent ales folosește doar numerele și compoziția divizorului • nicio parte a divizorului dividend: este fie zero, fie > o dată Numerele binare constau doar din -hive sau ones, astfel încât împărțirea binară este limitată la aceste două opțiuni, simplificând astfel operația de împărțire Să presupunem că atât dividendul, cât și zecimalul sunt numere pozitive, astfel încât câtul și restul sunt, de asemenea, cochilii nenegative Operanzi de împărțire ■ Rezultatele sunt valori pe de biți și în acest caz, semnele numerelor vor fi inversate Divizor Numărul cu care dividendul este divizibil Privat Rezultatul principal al împărțirii, numărul care, atunci când este înmulțit cu divizor și adăugat la produsul rezultat al restului, se transformă într-un dividend Rest Rezultat secundar al împărțirii, numărul care, atunci când este adăugat la produsul dintre cât și divizor, dă dividendul Capitolul Aritmetica pentru calculatoare Algoritm și echipamente utilizate pentru divizare Pe fig prezintă echipamentul conceput pentru a simula algoritmul școlii Să începem cu registrul privat pe de biți, a cărui valoare jsenior-leio este zero Fiecare iterație a algoritmului necesită mutarea divizorului la dreapta cu o cifră, așa că vom începe cu divizorul situat în jumătatea stângă a registrului Divizor de de biți și cu fiecare pas îl vom amesteca câte un bit, aliniându-ne cu registrul Restului divizibil ca valoare inițială a Dividendului Orez Versiunea Peram este echipată cu un AI conceput pentru divizare Registrul Divide Registrele ALU și Remainder au o valoare de de biți, iar doar registrul Factor are o valoare de de biți Valoarea dividendului Blocul de control decide când să deplaseze conținutul registrelor Dividend și Privat și când să se schimbe scrieți o nouă valoare în registrul Ostap Pe fig prezintă trei pași ai algoritmului de prima diviziune Spre deosebire de restul secolului, computerul nu este suficient de inteligent pentru a ști dinainte dacă divizorul este mai mic decât dividendul Mai întâi trebuie să scadă divizorul din pasul ; urmează vegi "fir, care este exact aceeași comparație se face în instrucțiunile" instalare, schimb decât " Dacă rezultatul este pozitiv, atunci divizorul a fost mai mic sau divizibil, deci se generează o unitate în coeficient (pasul a) Dacă rezultatul; este negativ, următorul pas este restabilirea valorii inițiale prin adăugarea divizorului înapoi la rest și generarea unui zero în partea > (pasul ) Divizorul este deplasat la dreapta și apoi are loc o nouă iterație După ce iterațiile sunt finalizate, restul și coeficientul vor fi găsite în registrele cu "Reumplere, sil N = oooo oooo : Shift Împarte dreapta oooo oooo ■ Odihnă, = Odihnă - Dilit oooo fi b Odihnă „Divizează sil Ch - ooo Shift Divide dreapta oooo OOOO OYOO : Odihnă = Odihnă - Delit oooo OOOO a Odihna > -> ІН Н = UNOOO Shift Împărțire dreapta Odihnă „ Ost - Delit OOOO a Odihna > => silh = OOOOOOOYU Shift Divide dreapta Orez Un exemplu de împărțire folosind algoritmul prezentat în fig Bitul testat pentru a determina următorul pas este îngroșat Pentru a accelera și a reduce costul acestei operațiuni, algoritmul și echipamentul pot fi îmbunătățite Accelerația poate fi realizată datorită faptului că deplasarea operanzilor și a coeficientului se va efectua concomitent cu scăderea Această îmbunătățire înjumătățește lățimea sumatorului și a registrelor prin detectarea părților neutilizate ale registrelor și adunărilor Echipamentul modificat este prezentat în fig Divizia ^c O versiune îmbunătățită a echipamentului conceput pentru împărțire - „-istr Dividers ALU și registrul Private au o valoare de de biți, iar doar registrul de putt are o valoare de de biți, în comparație cu echipamentul prezentat în Figura - ■ Registrul IV și Divizor sunt înjumătățiți, iar restul deplasat la stânga În această versiune, registrul clar este, de asemenea, fuzionat cu jumătatea dreaptă a registrului Remainder (Asemănător cu Figura - , de fapt, registrul Remainder trebuie să aibă biți pentru a păstra transportul de la sumator) Împărțire cu un semn Până acum, semnul a fost ignorat la împărțirea numerelor Cea mai simplă soluție la împărțirea cu semne este să memorezi semnele divizorului și ale dividendului și apoi să schimbi semnul coeficientului dacă primele două semne diferă unul de celălalt Clarificare Una dintre problemele diviziunii cu semne este că trebuie să setați și semnul restului Rețineți că următoarea ecuație trebuie să fie întotdeauna valabilă: Dividend - coeficient la divizor + rest Pentru a înțelege cum este setat semnul restului, să ne uităm la exemplul de împărțire a tuturor combinațiilor de ± / la + l Prima opțiune este cea mai simplă: + * + : coeficient - * , rest •= + Să verificăm rezultatele: - * + (- ) - + Dacă schimbați semnul dividendului, atunci trebuie să se schimbe și coeficientul - + + : coeficient - - Să rescriem formula de bază pentru calcularea restului Restul - (Dividend - Coeficient la divizor) - - - (- * * ) " - - (- ) " - Deci - + + : coeficient - , rest = - Capitolul Aritmetica pentru calculatoare Să verificăm din nou rezultatele: - x + (-!) - Răspunsul nu poate consta din câtul - și restul ♦ care ar satisface și această formulă, deoarece valoarea absolută a câtului s-ar modifica atunci în funcție de semnul dividendului și al divizorului! Dacă -(x + y) * oad linked word isl ( ) S • n*i»t(i$ ♦ ] Încărcarea cuvântului în prima jumătate a schimbului atomic stocați cuvântul conditkxi sc lsl ($s ) Hi»»rsLls - ]-lsl: lsl* sau Stocați cuvântul în timp ce faceți a doua jumătate a schimbului atomic load Irr immediate (încărcați valoarea imediată în biți superiori) lut Isl IS • • Încărcare constantă superiori biți continuare Capitolul Aritmetica pentru calculatoare Tabelul (continuare) Categoria de instrucțiuni Instrucțiuni Exemplu Sens Comentarii ȘI logic (ȘI) apo S$lS$ Ss Ssl * Ss J Ss Operanzi cu trei registre: AND pe biți SAU (SAU) sau Ssl Ss Ss Ssl • Ss | Ss Trei înregistrări din operand, SAU pe biți NOR (NU SAU) nici Ssl Ss Ss Ssl - - (Ss | Ss ) Trei operanzi de registru, pe biți NOT SAU și imediată andt Ssl Ss Ssl * Ss biți și constantă sau imediat (SAU direct) ort Ssl Ss Ssl - Ss | biți SAU cu constantă shrtt IeL logtcal (deplasare logică la stânga) sil tsl Ss Ssl - ts " Deplasare la stânga de o constantă shrtt dreapta togi-cal (deplasare logică la dreapta) stl SS SS Ssl - Ss » Deplasarea la dreapta nu este o constantă Salt condiționat brancti op equal (sărire pe egalitate) bea Ssl Ss if (Ssl - - Ss > salt la PC + ♦ Test pentru salt de egalitate asociat cu contorul programului bne Ssl JS dacă (Ssl! - Ss ) Salt la PC • * Test pentru saltul inegalității asociat cu contorul de programe stabilit pe mai puțin decât slt Ssl Ss Ss dacă (Ss Într-un astfel de caz, gama de numere de precizie unică se extinde de la cel mai mic număr ± , oooo , X *, m la cel mai mare ± , , xG”, Să arătăm aspectul acestei vederi Exercitiul Reprezentarea numerelor în virgulă mobilă Arătați reprezentarea binară cu precizie simplă și dublă IEEE a - |φ Răspuns Numărul - , ,, poate fi reprezentat și ca - / „ sau - / '|G Poate fi reprezentat și ca o fracție binară Numere în virgulă mobilă - ,/ |v sau - , g În notație exponențială, această valoare are o furcă - , , * * Și în notația exponențială normalizată, are forma - , ,* În general, numerele cu precizie unică sunt reprezentate după cum urmează: (- ) "( ♦ Mantissa)" • iе x ' Numere în virgulă mobilă Pasul Apoi va fi rândul adăugării părților semnificative: + - І și Yu ( Suma va fi rt « * Pasul Această sumă nu corespunde cu notația exponențială normalizată, așa că trebuie corectată: , „x Yu” - vh Yu Astfel, după adăugare, suma poate trebui să fie deplasată pentru a o aduce înapoi la forma sa normalizată, cu exponentul ajustat în consecință Acest exemplu arată o deplasare la dreapta, dar dacă un singur număr ar fi un gel frumos iar celălalt negativ, este foarte posibil ca suma să aibă multe zerouri de început care necesită deplasări la stânga Indiferent de creșterea sau scăderea exponentului, trebuie să verificați dacă există preaplin sau depășire, adică trebuie să vă asigurați ca expozantul inca se incadreaza in domeniul sau Pasul Deoarece a fost stabilită condiția ca partea semnificativă să fie ■doar patru cifre (excluzând semnul), numărul trebuie rotunjit Conform regulii liceului, dacă cifra din dreapta poziției dorite se află în intervalul de jos de la la , numărul este pur și simplu trunchiat, iar dacă această cifră este în intervalul de la la , atunci se adaugă una la numărul după trunchiere Număr ,ox > este rotunjit la patru cifre în partea semnificativă și ia următoarea formă: nx io>, deoarece a patra cifră din dreapta punctului zecimal era între și Trebuie remarcat faptul că, în circumstanțe nefavorabile, la rotunjire, de exemplu, atunci când adăugați unu la un șir de nouă suma își poate pierde forma normalizată și va trebui să efectuați din nou pasul Pe fig - prezintă un algoritm pentru adăugarea numerelor binare în virgulă mobilă, care corespunde exemplului dat de adăugare a numerelor zecimale Pașii și corespund pașilor din exemplul luat în considerare: mai întâi, partea semnificativă a numărului cu cel mai mic exponent este redusă la o formă generală, apoi se adaugă cele două părți semnificative Testul de depășire sau sub depășire din pasul depinde de precizia operanzilor Amintiți-vă că zerourile din toate cifrele din exponent sunt rezervate și sunt folosite în numerele cu virgulă mobilă pentru a reprezenta zero În plus, toate cele din exponent sunt rezervate în numerele cu virgulă mobilă pentru a reprezenta valori și situații care depășesc numerele normale (vezi „Clarificare” în subsecțiunea „Rezumat”) Astfel, numerele xia cu precizie unică, exponentul maxim este , iar minimul este Valori limită pentru numerele cu dublu precizia sunt și - Capitolul Aritmetica pentru calculatoare Comparația instantelor a două numere, SHIFT cel mai mic număr la dreapta până când exponentul său este egal cu exponentul celui mai mare număr Adăugarea unor părți semnificative Î Normalizați suma fie prin deplasarea la dreapta și creșterea exponentului, fie prin deplasarea la stânga * micșorând exponentul Rotunjirea părții semnificative la un număr acceptabil de cifre da f Q Gata Figura Adăugarea numerelor în virgulă mobilă În condiții normale, pașii și se efectuează o dată fiecare, dar dacă rotunjirea are ca rezultat o sumă anormală a băii, pasul trebuie repetat Numere în virgulă mobilă Exercitiul Adăugarea binară în virgulă mobilă Încercați să adăugați numerele , " și - , , în binar, folosind algoritmul prezentat în fig , Răspuns Să ne uităm mai întâi la reprezentarea binară a acestor două numere în notație exponențială normalizată, presupunând că precizia este limitată la cifre: „ „ '/ , - t/ 'm - , - , , * ° - ,x h - , ,, „- / ,# / , , "- ,x e ,x - Acum să urmăm algoritmul: Шві Partea semnificativă a numărului cu cel mai mic exponent (- , , x ') este deplasată la dreapta până atunci până când exponentul său este egal cu exponentul celui mai mare număr: - , , x *" - - , , x h Pasul Adăugarea părților semnificative: , x -' ♦ (- , Şi, x •) - , , X -' Pasul Normalizarea sumei, verificarea depășirii sau depășirii insuficiente: x - - x - - * - - x - Deoarece > - > - nu a avut loc nicio depășire sau depășire (Exponentul offset trebuie să fie - ♦ sau , iar această valoare este între și , care se află între cele mai mici și cele mai mari valori ale exponenților offset nerezervați ) Pasul Rotunjirea sumei x ' Suma se va potrivi doar în cifre, prin urmare, la rotunjire, cifrele nu se schimbă Atunci suma este egală cu I * - - , - - / - / - Această sumă corespunde cu ceea ce se așteaptă din adăugarea , şi - , , Multe computere au hardware conceput pentru a efectua operațiuni în virgulă mobilă la cea mai mare viteză Pe fig prezintă structura de bază a hardware-ului de adiție în virgulă mobilă Capitolul Aritmetica calculatorului Orez Diagrama bloc a unei unități aritmetice pentru adăugarea numerelor în virgulă mobilă Fiecare bloc corespunde de sus în jos cu pașii indicați în Fig - În primul rând, folosind o ALU mică, exponentul unui operand este scăzut din exponentul celui de-al doilea operand pentru a determina care dintre ele este mai mare și cu cât Această diferență controlează trei comutatoare, de la stânga la dreapta ele selectează cel mai mare exponent, partea semnificativă a numărului cel mai mic și partea semnificativă a numărului cel mai mare Partea semnificativă a numărului cel mai mic este deplasată la dreapta și apoi părțile semnificative sunt adăugată folosind un ALU mare Apoi, în pasul de normalizare, suma este deplasată la stânga sau la dreapta, crescând sau micșorând exponentul Apoi rotunjirea produce rezultatul final, care poate fi necesar să fie renormalizat Numere în virgulă mobilă Înmulțirea în virgulă mobilă După ce am explicat adăugarea numerelor în virgulă mobilă, să trecem la înmulțirea lor Să începem prin a înmulți manual două numere zecimale în notația exponențială doi Pasul I Spre deosebire de adăugare, exponentul produsului este calculat prin simpla adăugare a exponenților operanzilor: Exponent nou - * (- ) - Să facem același lucru cu exponenții părtinși pentru a ne asigura că obținem același rezultat: Exponent nou = ♦ - Acest rezultat este prea mare pentru un câmp exponent de opt biți înseamnă că ceva nu este în regulă aici! Problema constă în offset, deoarece am adăugat nu numai exponenții, ci și decalajele acestora: Noul exponent este ( + ) + (- + ) -( + * )" Prin urmare, pentru a obține suma cu offset-ul corect, atunci când adăugați numerele offset, trebuie să scădeți offset-ul din sumă Expozant nou - ♦ - - - - - ( + ) iar este același exponent calculat inițial Pasul Acum este timpul să înmulțim părțile semnificative: , la )U oooh oooh Yu O |O Fiecare operand are trei cifre la dreapta punctului zecimal, astfel încât punctul zecimal din partea semnificativă a produsului este indentat cu șase cifre la dreapta: , ,, Dacă luăm în considerare că doar trei cifre pot fi stocate în dreapta punctului zecimal, atunci obținem produsul , * Yu ; Pasul Acest produs are o formă nenormalizată deci trebuie normalizat: (Oh Yu "- ,, x KU Capitolul Aritmetica pentru calculatoare Astfel, după înmulțire, produsul trebuie deplasat la dreapta cu o cifră pentru ca acesta să dobândească o formă normalizată în același timp, se adaugă unul la exponent Aici trebuie să verificați dacă s-a produs overflow sau underflow Underflow poate apărea dacă ambii operanzi au valori mici, adică dacă ambii au exponenți negativi mari Pasul Am avut condiția ca părțile semnificative să aibă doar patru cifre (excluzând semnul), așa că numărul trebuie rotunjit Număr , , * * rotunjit la patru cifre în partea semnificativă și se dovedește , x * Pasul Semnul produsului depinde de semnele operanzilor sursă Dacă semnele operanzilor coincid, produsul are semn pozitiv, iar dacă nu se potrivește, are semn negativ Prin urmare, produsul contează ♦ „x Yu* Semnul sumei în algoritmul de adunare a fost determinat prin adăugarea de părți semnificative, dar în înmulțire, semnul produsului este determinat pe baza semnelor operanzilor Și din nou, așa cum se arată în fig În Figura , multiplicarea binară în virgulă mobilă este foarte asemănătoare cu pașii pe care tocmai i-am finalizat În primul rând, pentru produs, prin adăugarea exponenților mixți și scăderea în mod necesar a offset-ului, se calculează un nou exponent, apoi se înmulțesc părțile semnificative, urmată de pasul opțional de normalizare Mărimea exponentului este verificată pentru depășire sau depășire, iar apoi produsul este rotunjit în sus Dacă rotunjirea duce la necesitatea renormalizării, dimensiunea exponentului este verificată din nou În cele din urmă, bitul de semn este setat la unu dacă operanzii au semne diferite (produsul devine negativ) sau la zero dacă semnele sunt aceleași (produsul devine pozitiv) Exercitiul Înmulțirea numerelor binare în virgulă mobilă Încercați să înmulțiți numerele , , și - , „ utilizând pașii indicați în Figura În binar, problema este de a înmulți numărul ,« cu numărul - ,* ' Pasul Adăugarea exponenților fără compensare: -І'(- )'- sau folosind reprezentarea offset (- * ) ♦ (- ♦ ) - - (- - ) + ( + - ) - - ♦ - Numere în virgulă mobilă Orez Înmulțirea numerelor în virgulă mobilă De obicei, pașii și se efectuează o dată, dar dacă rotunjirea produsului are ca rezultat un produs nenormalizat, pasul trebuie repetat Capitolul Aritmetica pentru calculatoare Pasul Înmulțirea părților semnificative: x , khyu , Produsul are , * 'e, dar trebuie să-l încadrează în patru cifre turnat este egal cu * ' Pasul Acum produsul este redus, dacă este necesar, la o formă normalizată, iar apoi exponentul este verificat pentru depășire sau depășire Pron ik Denis are deja un aspect normalizat și din moment ce > - > - , nu s-a produs nicio depășire sau depășire Pasul Rotunjirea produsului lasă numărul neschimbat: * ' Pasul Deoarece semnele operanzilor sursă diferă unele de altele, produsului este atașat un semn negativ Prin urmare, produsul contează - , , x Pentru a verifica rezultatul, convertiți numărul în zecimală - , x - - - - - - - / - - / - , Produsul obţinut prin înmulţirea „ cu - , ,, într-adevăr este egal cu ,, Instrucțiuni pentru lucrul cu numere punctul de plutire MIPS acceptă formatele de precizie simplă și dublă IEEE cu următoarele instrucțiuni: ♦ Adunare în virgulă mobilă simplă (adăugați $) și dublă (adăugați precizie) ♦ Scăderi simple (sub s) și duble (s) de precizie în virgulă mobilă ♦ Înmulțiți numerele în virgulă mobilă cu precizie simplă (mul s) și dublă (nu) I ♦ Diviziuni simple (div s) și duble (dlv d) în virgulă mobilă ♦ Comparații simple (c x $) și duble (cu o precizie de până la ) ale numerelor în virgulă mobilă, unde x poate exprima egalitate - egal (echivalent) mai mic sau egal - mai mic decât sau Numere în virgulă mobilă egal (le), mai mare decât mai mare decât ul s U ,$f tf Sf - $f x $f FP divide aingle dtv s "f $f "f Sf - / $f FP divide (precizie unică) FP add double add d Jf $f »f Sf • Sf ♦ *f FP addition (dublă precizie) FP aubtract dublu sub d Sf Sf H Sf • Sf - T Scădere FP (dublă precizie) FP muttipty double nul d Sf Sf H I • Sf x f FP multiplicare (precizie dublă) FP dnnde double div d Sf Sf H Sf • »f / $f FP div (precizie dublă) Sortare cuvinte de încărcare transfer de date Iwcl Sfl ) (Ss ) Sfl - Lipire[$ ♦ ] Date pe de biți în registrul FP stoca sortarea cuvintelor SwCl Sfl l (Ss ) Solder[I ♦ ] • Sfl -raze data lipire ramură pe FPtrue bclt dacă (condiția - ) sari la PC ♦ ♦ Salt fata de calculator (contor de programe) cand este indeplinita conditia de lucru cu numere FP ramura pe FP talae bclf if (conditie - ) sari la PC ♦ ♦ Salt in cazul nerespectarii conditiei de lucru cu numere FP, efectuata relativ la PC (contor de programe) FP compara aingle (eq, no, It, le, gt, ga) C lt $ tf H if (Sf , condiție • altfel condiție ■ precizie FP compare double (eq, no, It, le, gt go) C It d I LT if (Sf condiția este altfel condiția este compara-mai puțin decât atunci când se ocupă cu FP duble Numere în virgulă mobilă Limbajul mașinii MIPS pentru lucrul cu numere în virgulă mobilă Formatați Exemple de Comentarii Nume K" S I adăugați s "f lf $f 'sub $ I sub s lf * Sf S I nul S tf SU V 'Фѵ s R div s Sf Ifi tfb • se adaugă d R se adaugă d lf [sub d R sub d »f îM »f d R mul d * Sf I div d R div d ** * * Iwcl G Iwcl М ( ) toci swcl * ( ) bclt bclt bclt bel* C t s I AO c it s * * e It d I in cu !td I I Dimensiunea câmpului biți biți biți biți biți biți Toate instrucțiunile MIPS pe de biți Interfață hardware și software Una dintre întrebările cu care trebuie să se confrunte dezvoltatorii atunci când acceptă aritmetica în virgulă mobilă este dacă să folosească aceleași registre ca pentru instrucțiunile întregi sau dacă să adauge un set special de registre pentru numerele în virgulă mobilă Deoarece programele efectuează în mod obișnuit operații cu numere întregi și în virgulă mobilă folosind date diferite, separarea registrelor va crește doar marginal numărul de instrucțiuni necesare pentru a executa programe, registre pentru numere în virgulă mobilă și memorie Avantajul utilizării registrelor separate pentru numere în virgulă mobilă este de două ori mai mulți registre fără a utiliza mai mulți biți în formatul de instrucțiune, dublarea lățimii de bandă a registrului prin utilizarea seturi separate de registre pentru lucrul cu numere în virgulă mobilă; de exemplu, unele computere transmit operanzi de toate dimensiunile într-un singur format intern Capitolul Aritmetica pentru calculatoare op( : ): - - ( ) ( ) ( ) ( ) ( ) Yu ) ) ( ) ( ) R furt Bltz/aez J Jdl beq bne blez bgtz ( ) aodi add'u slt sltiu AND ORI xORi lui ( ) TLB FIPt ( ) ( ) b In Iwl Iw Ibu Ihu wr ( ) sb sh Swl sw Swr c = f, rt( ) = -:>C»t), rs( : ): - - ( ) ( ) ( ) ) ( ) ( ) ( ) ( ) mici clei mtcl ctd ( )bel C ( ) t • ztpfe (ONE-narn TONN ) îndoială (double DOTS ) ( ) op( )" (FIPt), ( peste => f = s, => f = d) funct{ ): - - ( ) K ) ( ) ( ) ( ) ( ) ) ( C) ( ) adaugă f sub t mul tdiv f abs f mor f reg f ( ) ( ) ( ) ( ) cvt cvt d t cvt wf ( ) ( ) cff c un t c eq f c ueq t colt, t cult / cote t cule f ( ) c sl fc npie fc seq t c ngl f C lt f cnqe f ele f engt f Orez Codificarea instrucțiunilor MIPS concepute pentru a funcționa cu numere cu un punct plat Această notație dă valoarea câmpului în rânduri și coloane De exemplu, în partea de sus a figurii, codul de instrucțiune Ii poate fi găsit în rândul numărul ( , pentru biții de instrucțiune - ) și în coloana numărul ( , pentru biții de instrucțiune - ), adică valoarea corespunzătoare a câmpului operațional (cifrele - ) este O subliniere înseamnă că câmpul este folosit în altă parte De exemplu FIPt în rândul și coloana (op ■ ,, este definit în partea de jos a figurii În consecință, Sub f din rândul și coloana din partea de jos înseamnă că câmpul lunci (biții - ai instrucțiunii) are valoarea , iar câmpul op (biții - ) are valoarea Rețineți că câmpul z de cinci cifre indicat în partea din mijloc * a figurii determină dacă instrucțiunea este destinată să funcționeze cu numere de un singur ( * prin urmare, rs" ) sau volum dublu (f > d prin urmare, rs - ) Prin analogie cu aceasta, bitul al instrucțiunii determină dacă instrucțiunea bel C este verificată pentru adevărat - adevărat (bit " - > bcl t) sau false - (atee (bit = =>bc f) Instrucțiunile subliniate sunt descrise în capitolul sau în acest capitol Numere în virgulă mobilă Mtsmzhmeeeee Compilarea unui program C care funcționează cu numere în virgulă mobilă, ■ asamblator * cod MIPS Să convertim temperatura Fahrenheit în Celsius temperatură float f c (float faur) ( retum (( / ) • „ihr - )) } Să presupunem că argumentul în virgulă mobilă fal»r este trecut în registrul S , iar rezultatul ar trebui să intre în registrul tfO (Spre deosebire de registrele pentru lucrul cu numere de primăvară, registrul poate conține un număr chiar dacă numere în virgulă mobilă ) Care ar fi codul de asamblare M PS? Răspuns pentru (j • J !■ J • J • > Capitolul Aritmetica calculatorului pentru (k - k !- k - k • ) "ІШ • "I'ltjJ • K')M * "LL: eu Adresele de început ale matricei sunt parametri, deci sunt în registrele $a , tal și, respectiv, ta Presupunem ca variabilele intregi sunt respectiv in registrele |$o ІЯ și ist Care ar fi codul pentru corpul acestei proceduri în limbajul MIPS xembler? Răspuns Trebuie remarcat faptul că elementul este utilizat în bucla cea mai interioară iioc cі a codului de mai sus Deoarece indicele buclei este variabila k, indicele nu afectează "(Ni b, deci nu este necesar să se încarce și stochează x[i)[)) la fiecare iterație În schimb, compilatorul încarcă x[i](j] într-un registru din afara buclei, acumulează suma produsului dintre y[ ](k) și Z[k ](j] în același registru și apoi, după ce bucla în sine se completează, stochează suma în elementul xf i ](J - Vom simplifica codul folosind pseudo-instrucțiunile limbajului de asamblare o"element y["](k] bpsr Odată ce toate datele sunt încărcate, suntem în sfârșit gata să efectuăm câteva operații în virgulă mobilă! Înmulțim elementele y și z în registrele TP și $f și apoi acumulăm suma în registrul S( d * »f tf ♦ * - R ](k] • z(k](j) adăugați d sra dacă ♦ * - xt'MH* y(')(k] ' z(k][j] În blocul final, indicele k este incrementat și bucla revine înapoi, „dacă indicele nu este egal cu Dacă este egal cu , adică dacă s-a ajuns la sfârșitul liniei celei mai interioare trebuie să stocăm cantitatea acumulată în V în elementul x(i](j) add'j Ss Ss bne $ Kl i so sra (K ) ♦ Sk - to • * if (to •• ) salt to ( • X[ ](J • * ) În mod similar, ultimele patru instrucțiuni incrementează variabilele index ale buclelor din mijloc și cele mai exterioare, se repetă dacă indicele nu este și ies din buclă dacă indicele este adăugați SSL SSL bne Ssl Stl L addu SsO SsO bne sso sil LI ♦ SJ • J • ♦ dacă” (j ) transfer la ( t - ♦ i dacă* (i •- ) transfer la Li Clarificare Dispunerea matricei descrisă în exemplu, numită row-expanding, este folosită în C și în multe alte limbaje de programare În Fortran, se folosește extinderea coloanelor, prin care matricea este stocată în coloane Clarificare Inițial, doar din de registre MiPS în virgulă mobilă (FP) pot fi folosite pentru operații de dublă precizie: , * , f , , * Precizia dublă în calcule este obținută prin utilizarea perechilor acestor registre capabile să stocheze numere cu precizie unică Registrele FP cu numere impare sunt folosite doar pentru a încărca și stoca jumătățile drepte ale numerelor în virgulă mobilă pe de biți MIPS- adaugă instrucțiunile sau sd la setul de instrucțiuni MIPS- a adăugat, de asemenea, versiuni ale tuturor instrucțiunilor în virgulă mobilă, în care o instrucțiune are ca rezultat două operații paralele în virgulă mobilă pe doi operanzi pe de biți în cadrul registrelor de de biți De exemplu, adăugați os U f este echivalent cu adăugarea »* * urmat de adăugarea s * f * Clarificare Un alt motiv pentru separarea registrelor întregi de registrele în virgulă mobilă este că microprocesoarele din anii nu aveau suficienți tranzistori pentru a se potrivi cu o unitate în virgulă mobilă pe același cip care este blocul pentru Capitolul Aritmetica pentru calculatoare lucrează cu numere întregi Prin urmare, unitatea în virgulă mobilă, inclusiv registrele corespunzătoare, era disponibilă ca un al doilea cip Acești acceleratori suplimentari au fost numiti coprocesoare, ceea ce explică originea acronimului pentru încărcarea numerelor în virgulă mobilă în MIPS: Iwcl înseamnă „încărcare cuvânt în coprocesor • — toad wcxd la coprocesorul , adică la unitatea aritmetică în virgulă mobilă (Coprocesorul se referă la memoria virtuală, care este discutată în capitolul ) De la începutul anilor , microprocesoarele au încorporată o unitate aritmetică în virgulă mobilă (ca orice altceva), și astfel termenul de coprocesor merge mână în mână cu sumator și memoria principală Clarificare După cum sa menționat în Secțiunea , accelerarea unei operațiuni de împărțire este mult mai dificilă decât accelerarea unei înmulțiri Pe lângă tehnologia SRT, există o altă tehnologie care vă permite să accelerați dispozitivul de divizare, așa-numita metodă simplă de iterație a lui Newton, în care diviziunea este transformată în găsirea zeroului unei funcții pentru a determina reciproca lui /x, care se înmulţeşte apoi cu un alt operand Tehnologia de iterație nu permite rotunjirea necesară fără a calcula multe cifre suplimentare Această problemă este rezolvată prin calcularea valorii reciproce ultra-precise a cipului TI Clarificare În limbajul Java, standardul IEEE este folosit prin menționarea în definițiile sale a tipurilor de date și a operațiilor privind numerele în virgulă mobilă în Java De aceea, codul primul exemplu ■ ar putea fi potrivit pentru crearea unei metode de clasă care convertește valorile de la Fahrenheit la Celsius Al doilea exemplu utilizează matrice multidimensionale, care nu sunt suportate direct de Java Limbajul Java vă permite să creați matrice de matrice, dar fiecare matrice trebuie să aibă propria lungime, spre deosebire de matricele multidimensionale* din C Ca și în exemplele din Capitolul , versiunea Java a acestui al doilea exemplu va necesita o cantitate destul de mare de cod de verificat :biciuri matrice, inclusiv calcularea noii lungimi în moneda de acces șir De asemenea, trebuie să verifice asta că referința la obiect nu este goală Aritmetică exactă Spre deosebire de numerele întregi, care pot reprezenta exact fiecare număr v dintre cele mai mici și cele mai mari numere, numerele în virgulă mobilă sunt de obicei o aproximare a unui număr pe care nu îl pot reprezenta de fapt Motivul este că între, să zicem, zero și unu* există un număr infinit de numere reale, în timp ce numerele în virgulă mobilă cu precizie dublă pot fi reprezentate prin cel mult patru sau două numere reale ca un număr în virgulă mobilă care va fi cel mai apropiat de numărul real* Prin urmare, standardul IEEE oferă mai multe moduri de rotunjire, permițând programatorului să selecteze aproximarea dorită Termenul „rotunjire” în sine sună destul de simplu, dar rotunjirea precisă necesită echipamente care să includă * Numere în virgulă mobilă cifre În exemplele anterioare, nu am specificat numărul de cifre pe care le poate lua o reprezentare intermediară, dar este destul de evident că, dacă fiecare rezultat intermediar trebuie trunchiat la un anumit număr de cifre, atunci pur și simplu nu va mai fi loc pentru rotunjire Prin urmare, conform standardului IEEE , adăugarea intermediară din dreapta salvează întotdeauna două cifre suplimentare, care sunt numite respectiv protejate (garda) în rotunjire (rotunde) Pentru a ilustra importanța lor, luați în considerare un exemplu folosind numere zecimale Upra pareri Rotunjire cu biți de protecție Adăugați O * *s " * t ', cu condiția să existe trei zecimale semnificative Otyaot Mai întâi trebuie să deplasăm cel mai mic număr la dreapta pentru a alinia exponenții, transformând x * e în , ,," ' Dacă există biți de gardă și biți de rotunjire, devine posibil să se reprezinte cei doi biți mai puțin semnificativi la alinierea exponentului Bitul de gardă conține valoarea iar bitul rotund conține valoarea Suma se calculează după cum urmează OO, oh ♦О О о și este reprezentată de numărul , , x IO Deoarece două cifre sunt supuse rotunjirii, valorile de la la trebuie rotunjite în jos, valorile de la la trebuie rotunjite în sus, iar numărul necesită o analiză suplimentară Rotunjirea sumei la trei cifre semnificative rezultă „ până la Efectuarea rotunjirii fără biți de protecție și rotunjirea limitelor de calcul a doi biți În acest caz, noua sumă se calculează după cum urmează: , > ,o , Răspunsul devine , " * ' în timp ce pierde una din ultima cifră în comparație cu suma anterioară Deoarece cel mai rău caz pentru rotunjire ar fi obținerea unui număr care se află exact la jumătatea distanței dintre cele două reprezentări în virgulă mobilă, măsura acurateței numerelor în virgulă mobilă este de obicei numărul de biți în eroare în Protectie (Paza) Prima dintre cele două cifre suplimentare la stânga la dreapta în calculele intermediare în virgulă mobilă; folosit pentru a îmbunătăți acuratețea rotunjirii Runde (rotunde) O metodă care face ca un rezultat intermediar să fie plasat în format virgulă mobilă, al cărui scop este de obicei un volum pentru a găsi cel mai apropiat număr care poate fi reprezentat în acest format Capitolul Aritmetica pentru calculatoare cifre mai mici ale mantisei; această măsură se numește numărul de unități de pe ultimul loc, sau ulp Dacă numărul a pierdut două unități în cifrele cele mai puțin semnificative, atunci aceasta va fi numită pierderea a două ulp Cu condiția să nu se producă depășire, depășire sau excepție din cauza unei operațiuni ilegale, IEEE garantează că computerul va funcționa cu un număr care se află în jumătate din unitatea ultimei cifre — , ulp Clarificare Deși doar o cifră suplimentară a fost într-adevăr necesară pentru exemplul de mai sus, pot fi necesare două cifre pentru înmulțire Un produs binar poate avea o cifră zero înainte, prin urmare, în timpul normalizării, produsul ar trebui să fie mutat cu o cifră la stânga cifra produsului, lăsând cifra numărului de rotunjire pentru a ajuta la rotunjirea precisă a produsului Există patru moduri de rotunjire în IEEE : rotunjire constantă (spre * sub, mult drv ȘI, ANDi, SAU, ORi NICI slt Sili — ctw Ih SH lui addu addiu, subu multu, divu SI ANDi SAU ORi, NOR Sltu sltiu float float twc , swc add s, sub s mult s, drvs c eq s c Se scle s dublu dublu Id sd adauga d sub d mull d, divd, c eq d, cit d e le d Interfață hardware și software În capitolul anterior au fost introduse clasele de memorie ale limbajului de programare C (vezi secțiunea „Interfață hardware și software” din secțiunea ) Tabelul de mai sus prezintă unele dintre tipurile de date disponibile în C și Java Instrucțiuni de transfer de date MIPS și instrucțiuni care funcționează cu aceste tipuri, care apar în Capitolul și în acest capitol Rețineți că numerele întregi fără semn nu sunt utilizate în Java Autotestare Să presupunem că utilizați un format de număr în virgulă mobilă pe biți, conform standardului IEEE și având cinci biți exponenți Care ar putea fi intervalul de numere afișat cu acesta? De la OOOO * e la TsmU De la ± OOOO OOOO * „la + , x '\ ± , ±“* NaN De la ± , OOOO x " la ± , x ,s ± , ±°°, NaN De la ± , OOOO * '' la ± , x d, rO, ±°o NaN Clarificare Pentru a permite comparații care pot implica valori NaN, standardul include comparații ordonate și neordonate ca posibile comparații Ca urmare, setul complet de instrucțiuni MIPS are multe variante de comparație pentru a accepta valori NaN (Java nu acceptă comparații neordonate ) Pentru a strânge până la ultimul bit de precizie dintr-o operație în virgulă mobilă, standardul permite reprezentarea unor numere în mod non-normal Paralelism și aritmetică computerizată: asociativitatea într-o formă simplificată În loc de un decalaj între zero și cel mai mic număr de normalizare, IEEE permite numerele denormalizate (cunoscute și sub denumirea de denorme sau subnormale) Au același exponent ca zero, dar o parte semnificativă diferită de zero Ele permit numărului să piardă din valoare până devine zero , care se numește treptat t underflow De exemplu, cea mai mică „minge cu o singură precizie” normalizată pozitivă este OOOO OOOO , * i cel mai mic număr de precizie unică denormalizată este , OOOO , x sau , , x Pentru numerele cu precizie dublă, decalajul dintre forma normalizată și nenormalizată este de la , x u' la , x 'im Posibilitatea de a utiliza ocazional operanzi nenormalizați este o bătaie de cap pentru dezvoltatorii care doresc să creeze hack-uri rapide în virgulă mobilă Prin urmare, pe multe computere, când se întâlnește un operand nenormalizat, sunt aruncate excepții, permițând programului să finalizeze operația În ciuda implementărilor complet funcționale ale programelor, performanța lor slabă a redus popularitatea numerelor non-standard în programele portabile în virgulă mobilă În plus, dacă programatorii nu se așteaptă să folosească numere non-standard, atunci programele le pot surprinde considerabile Paralelism și aritmetică computerizată: asociativitate Procesele, înainte de a fi rescrise pentru a rula în paralel, sunt de obicei scrise mai întâi pentru a rula în secvență, așa că este firesc să puneți întrebarea: „Rularea ambelor versiuni primește același răspuns?” Dacă răspunsul este nu, atunci se presupune că există o eroare în versiunea paralelă care trebuie urmărită Această abordare presupune că aritmetica computerizată nu afectează rezultatele în tranziția de la calculul în serie la cel paralel Adică, dacă trebuie să adunați un milion de numere împreună, trebuie să obțineți aceleași rezultate indiferent câte procesoare sunt folosite, unul sau o mie Această ipoteză este valabilă pentru numerele întregi de complement a doi, chiar dacă calculul are ca rezultat un depășire În alt mod, adăugarea întregului este asociativă Din păcate, deoarece numerele în virgulă mobilă sunt o aproximare a numerelor reale și pentru că aritmetica computerizată are o precizie limitată, numerele în virgulă mobilă nu sunt asociative, adică adăugarea în virgulă mobilă nu este asociativă Capitolul Aritmetica pentru calculatoare Exercitiul Verificarea asociativității adunării în virgulă mobilă Vezi dacă condiția x + (y ♦ z) „(x + y) ♦ z este îndeplinită Să presupunem, de exemplu, că x - - nx m, y - , * m ag „ și toate numerele au precizie unică Răspuns Având în vedere gama largă de numere care pot fi reprezentate în formatul mai-punct, probleme, așa cum vom vedea în exemplul următor, apar atunci când se adună două numere mari cu semne diferite și un număr mic” x + (y + z) - - , ,, * Yu * ♦ ( , „ * * ♦ ) - - , , x * * ( lux *) - (x*y) + z-(- „« * + x ") ♦ -( , , )+ , - Prin urmare, x ♦ (y ♦ z) * (x * y) ♦ z, deci adăugarea în virgulă mobilă nu este asociativă Deoarece numerele cu virgulă mobilă au o precizie limitată și rezultatul este o aproximare a rezultatului real, , , x m este mult mai mare decât , ,, că , ,,* " ♦ , este încă reprezentat de numărul " x * De aceea suma lui x y și z este sau , în funcție de ordinea adunării numerelor în virgulă mobilă și Prin urmare adunarea unor astfel de numere nu este asociativă Un caz mai nefericit al acestei neînțelegeri apare pe un computer paralel, unde programatorul sistemului de operare poate folosi un număr diferit de procesoare în funcție de alte programe care rulează pe computerul paralel Un programator neinformat care lucrează pe o mașină paralelă poate fi confuz de faptul că programul său va obține rezultate ușor diferite de fiecare dată când același cod este rulat cu aceleași date de intrare, deoarece utilizarea unui număr diferit de procesoare va face ca sumele să fie calculate într-o ordine diferită Având în vedere aceste dificultăți, programatorii care creează eficiență paralelă pentru lucrul cu numere în virgulă mobilă trebuie să verifice fiabilitatea rezultatelor chiar dacă nu primesc exact același răspuns ca atunci când se utilizează codul serial Domeniul de activitate în care se tratează astfel de probleme se numește analiză numerică Acest subiect de drept ocupă un loc aparte în manuale Probleme ca acestea au dus la popularitatea bibliotecilor de analiză numerică precum LAPAC K și SCALAPAK, care acceptă validarea atât în forma lor serială, cât și în cea paralelă Clarificare Problema asociativității își găsește manifestarea insidioasă atunci când două procesoare efectuează calcule redundante care sunt efectuate într-o ordine diferită, rezultând răspunsuri tr ușor diferite, deși ambele răspunsuri sunt considerate exacte O eroare apare atunci când apare o comparație în virgulă mobilă pe un salt condiționat și două procesoare iau căi de ramificație diferite atunci când bunul simț le dictează că ar trebui să urmeze aceeași cale - Echipament real pentru calcularea numerelor în virgulă mobilă în x Hardware real: calcule în virgulă mobilă x x are instrucțiunile obișnuite de înmulțire și împărțire care funcționează exclusiv cu registre și nu se bazează, ca în MIPS, pe utilizarea registrelor Hi și Lo (Pentru a fi corect, cele mai recente versiuni ale setului de instrucțiuni M PS au exact aceleași instrucțiuni adăugate ) Principala diferență devine vizibilă în instrucțiunile de lucru cu numere; virgulă mobilă Arhitectura x pentru lucrul cu aceste numere este diferită de arhitectura tuturor celorlalte computere din lume Arhitectură x pentru lucrul cu numere în virgulă mobilă Coprocesorul Intel , proiectat să funcționeze cu numere în virgulă mobilă, a apărut în Arhitectura sa a extins arhitectura procesorului cu aproximativ de instrucțiuni în virgulă mobilă Pentru instrucțiunile lor în virgulă mobilă, Intel a furnizat o arhitectură de stivă încarcă numerele în stivă, operațiunile găsesc operanzi în primele două elemente ale stivei, iar salvările pot elimina elemente din stivă Intel a extins această arhitectură stivă cu instrucțiuni și moduri de adresare care permit arhitecturii să câștige unele avantaje față de modelul registru-la-memorie Pe lângă faptul că operanzii se află în primele două elemente ale stivei, un operand poate fi în memorie sau într-unul dintre cele șapte registre intraprocesor de sub partea de sus a stivei Astfel, un set complet de instrucțiuni de stivă a fost completat de un număr limitat de set de instrucțiuni folosind modelul registru-memorie Cu toate acestea, acest hibrid este încă un model limitat de „registru-memorie”, deoarece instrucțiunile de încărcare mută întotdeauna datele în partea de sus a stivei prin creșterea valorii indicatorului în acest vârf, iar instrucțiunile de stocare pot muta doar elementul din partea de sus a stivei teancul în memorie Intel folosește ST pentru a indica partea de sus a stivei și ST(*J O altă inovație a arhitecturii zgoy a fost aceea operanzii din stiva de registre sunt mai largi decât atunci când sunt stocați în memorie și toate operațiunile sunt efectuate cu această precizie internă extinsă Spre deosebire de maximul MIPS de de biți, operanzii în virgulă mobilă de pe stiva x au o lățime de de biți Numerele sunt convertite automat în interior când sunt încărcate în format de de biți, iar când sunt salvate, acestea sunt convertite invers la o dimensiune acceptabilă Această precizie dublă extinsă nu este acceptată de limbajele de programare, deși ar fi utilă programatorilor care scriu programe de matematică Datele din memorie pot fi numere în virgulă mobilă pe de biți (precizie simplă) sau de biți (precizie dublă) Versiuni ale acestor instrucțiuni folosind modelul registru-memorie apoi, înainte de a efectua operația Capitolul Aritmetica calculatorului va converti operanzii stocați în memorie în acest format de de biți utilizat de Intel De asemenea, instrucțiunile de transfer de date pentru iload-uri și stocarea numerelor întregi vor converti automat numerele întregi de și de biți în numere cu virgulă mobilă și invers Operațiunile cu virgulă mobilă x pot fi împărțite în patru clase principale: Instrucțiuni pentru mutarea datelor, inclusiv încărcarea (încărcarea) constante de încărcare” (constante de încărcare) și salvare (storc) Instrucțiuni aritmetice, inclusiv adunarea (adunarea), scăderea (scăderea și înmulțirea (înmulțirea), împărțirea (împărțirea), extragerea rădăcinii pătrate (rădăcină pătrată) și obținerea unei valori absolute (valoare absolută) Instrucțiuni de comparare, inclusiv instrucțiuni pentru trimiterea rezultatului la un procesor întreg pentru salt condiționat Instrucțiuni transcendentale, inclusiv recepția sinus (sinus), cosinus (cosinus) logaritm (log) și exponentiație (exponentiauon) O parte din cele de operații în virgulă mobilă este prezentată în tabel Ar trebui notat că atunci când modurile de extragere a operanzilor pentru aceste operații sunt activate, se vor obține și mai multe combinații O mulțime de opțiuni pentru adăugarea numerelor în virgulă mobilă sunt prezentate în Tabel Instrucțiunile în virgulă mobilă sunt codificate folosind codul operațional ESC și indicatorul de adresă post-octet (vezi Tabelul ) din numere întregi de sau de biți Cu toate acestea, doi biți sunt utilizați în versiunile fără acces la memorie pentru a decide dacă să iasă valorile din stivă după ultimul și dacă rezultatul trebuie împins în partea de sus a stivei sau într-un registru inferior În trecut, performanța în virgulă mobilă a familiei x C a fost cu mult în urma celorlalte computere Rezultat! acest Intel a creat o arhitectură de instrucțiuni în virgulă mobilă mai tradițională, făcând-o parte a SSE Tabelul instrucțiuni în virgulă mobilă hvb Acolade (} sunt folosite pentru a afișa opțiuni suplimentare pentru operațiunile de bază { } înseamnă prezența unei versiuni întregi a instrucțiunii, (P) înseamnă că această opțiune va scoate un operand din stivă după operație și (R) înseamnă ordinea inversă a operanzilor din această operație Prima coloană arată instrucțiunile de transfer de date care mută datele în memorie sau unul dintre registrele de sub partea de sus a stivei Ultimele trei operații din prima coloană împing constantele pe stivă: pi și A doua coloană conține operațiile aritmetice descrise mai sus Rețineți că ultimele trei funcționează doar pe elementul din partea de sus a stivei A treia coloană arată instrucțiunile de comparare Deoarece nu există instrucțiuni speciale în virgulă mobilă pentru saltul condiționat, rezultatul comparației ar trebui să fie h Hardware real x cu virgulă mobilă să fie transferat la CPU întreg folosind instrucțiunea FSTSW sau în registrul AX sau în memorie, urmată de o instrucțiune SAHF pentru a seta codurile de condiție După aceasta, comparația cu virgulă mobilă trebuie verificată folosind instrucțiuni de ramificare condițională cu numere întregi Ultima coloană arată operațiunile în virgulă mobilă de nivel înalt Nu toate combinațiile oferite de sistemul de înregistrare sunt prezentate aici Prin urmare, operațiile F(I)SUB(R)(P) reprezintă următoarele instrucțiuni din setul x FSUB FISUB FSUBR, FSUBR FSUBP FSUBRP Fără opțiuni pop (FISUBP) sau pop inversă (FISUBRP) pentru instrucțiunile de scădere a întregilor Pen de date Operații aritmetice Operații Operații transcendentale •fl}LD mem/ST(i) F{I|ADD(P) mem/ST(i) F(I|COM{P) FPATAN HHST(P) Gletl/ ST(i) F(I)SUB(R)(P) ₽ F(I)MUL(P) me«n/ST(i) FSTSW AX/mem FCOS RJDI F|I)DIV(RHP» mem/ST(l) FPTAN FLD FSORT FPREM FABS FSIN FRNCXNT FYL X Tabelul Opțiuni de operanzi pentru adăugarea în virgulă mobilă x Operanzi de instrucțiuni Comentarii FADO Ambii operanzi sunt pe stivă, rezultatul înlocuiește conținutul din partea de sus a stivei FADO ST(i) Un operand sursă este al n-lea registru de sub partea de sus a stivei; rezultatul înlocuiește conținutul din partea de sus a stivei FADO ST(i) ST Un operand este deasupra stivei; rezultatul înlocuiește registrul i de sub partea de sus a stivei FADD mern Un operand sursă este o locație de memorie pe de biți; rezultatul înlocuiește conținutul din partea de sus a stivei FADO rnem Un operand sursă este o locație de memorie pe de biți; rezultatul înlocuiește conținutul din partea de sus a stivei Intel Streaming SIMD Extensions (SSE ) pentru arhitectura în virgulă mobilă Capitolul a menționat că în , Intel a adăugat de instrucțiuni arhitecturii sale, inclusiv registre și operațiuni cu virgulă mobilă cu precizie dublă Această extensie a inclus opt registre pe de biți utilizate pentru operanzi în virgulă mobilă, oferind computerului o altă Capitolul Aritmetica calculatorului din obiectul unic de arhitectură stivă Compilatorii ar putea alege să folosească opt SSE -pemcTpoH ca registre cu virgulă mobilă ca acesta găsite pe alte computere AMD, ca parte a extensiei AMD , a crescut numărul de registre la , iar Intel și-a schimbat numele în EM T pentru a utiliza această extensie Un rezumat al instrucțiunilor SSE și SSE este prezentat în Tabelul Pe lângă stocarea numerelor de precizie simple sau duble într-un registru, Intel permite ca operanzi multipli în virgulă mobilă să fie împachetati într-un singur registru SSE de de biți: patru simple sau două duble Astfel, cele registre în virgulă mobilă pentru SSE sunt efectiv de de biți Dacă operanzii pot fi aliniați în memorie la date de de biți, atunci prin transferul de date de de biți, puteți încărca și stoca mai mulți operanzi deodată cu o singură instrucțiune Acest format de număr în virgulă mobilă împachetat este acceptat de aritmetică și nierasme care poate lucra simultan pe patru numere cu precizie simplă (PS ) sau două numere cu precizie dublă (PD) Performanța acestei arhitecturi este de peste două ori mai mare decât cea a arhitecturii stivei Tabelul Instrucțiuni SSE/SSE pentru lucrul cu numere în virgulă mobilă din familia x Abrevierea xmm înseamnă că un operand este un registru E de de biți, iar rnem xmm înseamnă că celălalt operand este fie în memorie, fie într-un registru E un număr în virgulă mobilă cu precizie unică este Scalar Smgle și unul de de biți operand într-un registru de de biți, (PS) denotă un număr în virgulă mobilă cu precizie unică - Raske: Smgle sau patru operanzi de de biți într-un registru de de biți (SD) indică un număr cu virgulă mobilă cu precizie dublă scalară, sau un operand de de biți într-un registru de de biți, (PD) denotă o precizie dublă în virgulă mobilă împachetat* - Împachetat Operanzi dubli sau doi pe de biți „în de biți; (A) denotă un operand de de rânduri, exp>*enmy-in-memory; (U) indică un operand de de biți care nu este aliniat în memorie (H) denotă mutarea jumătății de bit înalt al operandului de de biți; și {L} indică mutarea mai puțin de* jumătate din biții operandului de de biți Transfer de date Operatii aritmetice Operatii de comparare MOV(A/U)(SS/PS/SD/ ADD(SS/PS/SD/PO) xmm mem/xmm CMP(SS/PS/SD/PD) RO) xmm mem/xmm SU (SS/PS/SD/PO) xmm, mem/xmm MUL(SS/PS/SO/PO) xmm, mem/xmm DIV{SS/₽S/SO/PO)xmm mem/xmm SORT(SS/PS/SO/PO)mem/xmm MAX (SS/PS/SD/PD) mem/xmm MlN(SS/PS/SD/PD)mem/xmm Concepții greșite și neînțelegeri Concepții greșite și neînțelegeri Astfel, matematica poate fi definită ca o materie în care nu știm niciodată despre ce vorbim și, de asemenea, nu știm când ceea ce spunem este adevărat Burtrand Russell Erorile și neînțelegerile aritmetice apar în principal din cauza diferenței dintre precizia limitată a aritmeticii computerizate și precizia nelimitată a aritmeticii obișnuite Iluzie Așa cum instrucțiunea de deplasare la stânga poate înlocui înmulțirea întregului cu doi, deplasarea la dreapta este echivalentă cu împărțirea întregului cu doi Amintiți-vă că numărul binar x unde xi înseamnă a i-a cifră, reprezintă un număr ♦ (x x ') + (x x ') + (xi * ') ♦ (n x °) Deplasarea biților lui x la dreapta cu n biți ar putea părea ca împărțirea la " Pentru numerele întregi fără semn, această afirmație este adevărată Problema apare cu numerele întregi cu semn Să presupunem, de exemplu, că doriți să împărțiți - |(| cu (# coeficientul trebuie să fie - |e Reprezentarea complementului a doi a lui - este IM NI II , Conform acestei concepții greșite, o deplasare la dreapta cu doi biți ar trebui să o împartă la ( ): UN II II , Cu un semn bit de zero, acest rezultat este în mod evident greșit Valoarea creată de schimbarea la dreapta este de fapt ) și ns Soluția ar fi să existe o deplasare aritmetică la dreapta, care ar extinde bitul de semn în loc să-l deplaseze la zero O deplasare aritmetică de două cifre la dreapta unui număr - |C produce un număr ! PI , Rezultatul este - , nu - )B; aproape exact ceea ce ai nevoie, dar nu chiar Iluzie Instrucțiunea MIPS pentru o adăugare de valoare imediată nesemnată (AM immediate unstgnedfadPm) nu își extinde semnul câmpului de valoare imediată de biți În ciuda numelui său, instrucțiunea add inunediate unsigned (addiu) este folosită pentru a adăuga numere întregi cu semn la o constantă atunci când depășirea este ignorată Capitolul Aritmetica pentru calculatoare Iluzie Precizia numerelor în virgulă mobilă este necesară doar de către un specialist în matematică teoretică Titlurile ziarelor din noiembrie afirmau că această afirmație nu era altceva decât o simplă eroare (Figura ) Și istoria apariției unor astfel de titluri a fost următoarea Pentium folosește un algoritm standard de împărțire în virgulă mobilă care generează mai multe cifre ale câtului într-un singur pas Folosește cifrele mari ale divizorului și dividendului pentru a face ghiciri despre următoarele două cifre ale câtului Această presupunere a rezultat dintr-o căutare în tabel care conține - , - , , * sau + Numărul estimat a fost înmulțit cu divizor și scăzut din rest pentru a genera un nou rest Ca și împărțirea fără recuperare, rețeaua, ca urmare a ipotezei anterioare, sa dovedit a fi un rest prea mare, restul intermediar a fost redus la valoarea dorită la următoarea trecere Din câte se pare, specialiștii Intel au mai crezut că cinci elemente ale tabelului de la procesorul nu vor fi niciodată accesate și au optimizat matricea logică programabilă astfel încât , nu , a fost returnat în situația Pentium Dar specialiștii Intel au făcut o greșeală: au făcut o greșeală au asigurat rezultatul întotdeauna corect în primele cifre, au făcut o eroare intermitentă în cifrele de la la sau de la a patra la a cincisprezecea cifră zecimală Orez Exemple de articole din ziare și reviste din noiembrie inclusiv articolele „Hya” York Tishea San Call Mercury New, Sen Francisco Chronicle și Infowortd Problema diviziunii în virgulă mobilă a lui Peorua a ajuns chiar și în Top de știri din emisiunea TV a lui David Letterman În cele din urmă, Intel a cheltuit de milioane de dolari pentru a înlocui cipurile cu probleme Concepții greșite și neînțelegeri Evenimentele din această poveste instructivă despre bug Pentium s-au desfășurat în următoarea ordine ♦ And>ach Intel descoperă o eroare în procesorul Pentium Costul real pentru remedierea erorii a fost de câteva sute de mii de dolari În conformitate cu procedurile normale de corectare a erorilor, efectuarea de modificări ar putea dura câteva luni pentru ca cipul corelat să fie retestat și pus în producție Intel a planificat să pună în producție un cip bun în ianuarie , presupunând - milioane de procesoare defecte ♦ Septembrie Profesor de matematică în Lynchburg, Virginia Thomas Bine, găsește o eroare După un apel la suportul tehnic al Intel și niciun răspuns oficial, el și-a publicat descoperirea pe Internet S-a observat că chiar și erorile mici devin mari atunci când sunt înmulțite cu numere mari: de exemplu, determinarea proporției de persoane care suferă de o boală rară în raport cu populației Europei, ar putea duce la o estimare incorectă a numărului de pacienți ♦ noiembrie The Electronic Engineering Times a publicat povestea pe prima pagină și a fost preluată curând de alte ziare ♦ noiembrie Intel a emis un comunicat de presă în care a numit totul „glitch” Procesorul Pentium „poate face greșeli la a noua cifră În practică, inginerii și analiștii financiari au nevoie de precizie doar la a patra sau a cincea cifră a punctului zecimal Se pare că utilizatorii de foi de calcul și procesoare de text nu au de ce să-și facă griji Poate că această problemă ar putea afecta doar câteva zeci de oameni Până acum, am auzit doar despre asta de la o singură persoană Această problemă ar trebui să preocupe (doar pentru matematicienii teoreticieni (care au achiziționat computere Pentium înainte de această vară) " cum este utilizat computerul lor, iar apoi compania va decide dacă au nevoie de un nou Pentium pentru asta fără o eroare de divizare sau nu ♦ Pe decembrie , Intel a declarat că acest defect apare utilizatorului mediu de foi de calcul o dată la de ani Intel a presupus că utilizatorul efectuează de diviziuni pe zi și a înmulțit acest număr cu frecvența de apariție a erorii, presupunând că numerele în virgulă mobilă sunt utilizate rar, s-a dovedit a fi una din miliarde sau o eroare în de ani Utilizatori a început să se calmeze, în ciuda faptului că Intel nu a considerat necesar să explice de ce utilizatorul obișnuit va accesa rar numere în virgulă mobilă ♦ Pe decembrie , departamentul R&D al IBM a pus la îndoială rata de eroare calculată de Intel (articolul lor poate fi găsit la www mkp com/books cataloo/cod/knks htm) Experții IBM au spus că foile de calcul convenționale care recalculează rezultatele a minute pe zi pot produce erori legate de Capitolul Aritmetica pentru calculatoare cu un procesor Pentium defect la fiecare de zile Ei au presupus că de diviziuni pe secundă în minute au dat , milioane de divizii pe zi și nu au fost de acord cu presupunerea unei distribuții aleatorii a numerelor, calculând posibilitatea de eroare ca una la de milioane Drept urmare, IBM a oprit imediat livrările sale calculatoare personale pe baza procesoarelor Pentium Scandalul din jurul companiei Intel a izbucnit cu o vigoare reînnoită ♦ decembrie Intel emite următorul comunicat de presă, semnat de președintele companiei, directorul executiv și președintele consiliului de administrație: „Noi, cei de la companie, am dori să oferim scuze sincere pentru gestionarea deficienței recent raportate a procesorului Pentium Sigla Intel Insidec înseamnă că computerul dvs are un microprocesor de neegalat în calitate și performanță Dovada finală a adevărului laya-magului" y wspw ' tru'dodo evr^;r WA' W akw va-A'/w U- Nu există microprocesoare ideale La Intel, continui* să cred că, în acest caz, o problemă foarte minoră a căpătat o semnificație deosebită Deși Intel insistă asupra calității înalte a versiunii actuale a procesorului Pentium, suntem conștienți de preocupările pe care le au mulți utilizatori Vrem să eliminăm toate îndoielile Intel va schimba versiunea actuală a procesorului Pentium cu o versiune actualizată a procesorului Pentium cu un defect fix de divizare în virgulă mobilă, oricărui proprietar care solicită un astfel de schimb, complet gratuit în orice moment pe durata vieții computerului său Analiştii au estimat că această rechemare a produsului ar costa Intel de milioane de dolari, iar inginerii Intel nu au primit un bonus de Crăciun în acel an Această poveste are câteva puncte instructive despre noi Cu cât ar fi fost mai ieftin să remediez defectul în iulie ? Cât a costat restabilirea reputației Intel? Și care este responsabilitatea corporativă în găsirea erorilor într-un produs atât de utilizat pe scară largă și serios ca un microprocesor? În aprilie , a fost descoperită o altă eroare în virgulă mobilă în microprocesoarele Pentium Pro și Pentium I care nu se potrivește într-un cuvânt de biți sau de biți după ce a fost convertit într-un număr întreg, aceste instrucțiuni setează bitul greșit în FPO cuvânt de stare (excepție de precizie în loc de excepție de operare ilegală ) Spre meritul Intel, de data aceasta au anunțat public existența unui bug și au propus un instrument software pentru a o ocoli, adică ea a acționat complet diferit decât în Comentarii finale Comentarii finale Un efect secundar al unui computer cu un program stocat în memorie este că modelele de biți nu au semnificații predefinite Aceleași combinații de biți pot fi un număr întreg cu semn, un număr întreg fără semn, un număr în virgulă mobilă, o instrucțiune și așa mai departe Sensul unui cuvânt este determinat de instrucțiunea care operează pe el Aritmetica computerizată diferă de aritmetica creion și hârtie printr-o limitare necesară a preciziei Această restricție poate duce la operațiuni nevalide dacă valorile calculate sunt mai mari sau mai mici decât limitele predefinite Asemenea anomalii, care se numesc „depășiri” sau „depășiri”, pot duce la excepții sau întreruperi, evenimente anormale precum apelurile neprogramate de subrutine Excepțiile sunt discutate mai detaliat în Capitolul Aritmetica în virgulă mobilă are complicații suplimentare atunci când se abordează numerele reale, necesitând o atenție specială pentru a se asigura că este aleasă reprezentarea numărului computerului care este cea mai apropiată de numărul real Problemele de eroare și reprezentare limitată fac parte din domeniul analizei numerice Recenta trecere la calculul paralel va trezi interesul pentru analiza numerică, deoarece soluțiile care au fost considerate de multă vreme fiabile pe computerele seriale trebuie revizuite în căutarea celor mai rapizi algoritmi pentru computerele paralele care ar continua să producă rezultatul corect De-a lungul anilor, aritmetica computerizată a devenit aproape complet supusă anumitor standarde, îmbunătățind semnificativ portabilitatea programelor Marea majoritate a calculatoarelor vândute astăzi utilizează aritmetica cu numere întregi complementare și aritmetica binară în virgulă mobilă, conform standardului IEEE Alături de o discuție despre aritmetica computerizată, acest capitol va descrie un număr mare de instrucțiuni noi incluse în setul MIPS Singurul lucru care rămâne neclar este punctul de a compara instrucțiunile discutate în acest capitol cu instrucțiunile executate de microprocesoarele MIPS, ca precum și cu instrucțiuni percepute de programele de asamblare MIPS Următoarele două tabele vor ajuta la clarificarea situației Tabelul listează instrucțiunile MIPS discutate în acest capitol și în Capitolul Instrucțiunile afișate în partea stângă a tabelului se numesc instrucțiuni MIPS de bază (core MIPS) Instrucțiunile afișate în partea dreaptă se numesc instrucțiuni aritmetice de bază MIPS Partea stângă a tabelului prezintă instrucțiunile procesorului MIPS lipsă în tabel Setul complet de instrucțiuni hardware se numește MIPS- Pe partea dreaptă a mesei Figura prezintă instrucțiuni care sunt acceptate de programele de asamblare și nu fac parte din setul MIPS- Acest set de instrucțiuni se numește pseudo-MIPS Capitolul Aritmetica pentru calculatoare Tabelul Set de instrucțiuni MIPS Această carte se concentrează* pe instrucțiunile afișate în partea stângă a tabelului Instrucțiuni de bază MIPS Nazya* me Format Instrucțiuni de aritmetică MIPS de bază Nazvane pentru MGT adaugă (adunare) adaugă R înmulţire (înmulţire) mult adăugare imediată (adunare directă) adek înmulțire fără semn (înmulțire fără semn) multu R add unsigned (unsigned addition) addu R divide (divide) div I adaugă imediat nesemnat (adăugare directă nesemnată) add R divide și nu verificați overflow divu rd rs, rt load haltword lh rest (semnat sau nesemnat) rems rd rs rt încărcare octet încărcare imediată h rd ma încărcare cuvânt stânga (nealiniat) (încărcarea stratului la stânga, fără să tăiați) adresă de încărcare (încărcarea adresei) la rd ;"ddr Comentarii finale Alte instrucțiuni MIPS- Formular de nume MBT Pseudo Format de nume MIPS oad word nght (nealiniat) twr load id dublu id adresă cuvânt yoga stânga (nealiniat) swl magazin dublu sd rd adresă cuvânt yoga dreapta (nealiniat) SWT cuvânt de încărcare nealiniat ulw rd, addr i Oad Imked (actualizare atomică) II cuvânt magazin nealiniat usw rd, addr yoga cood (actualizare atomică) SC unaligned load haitword (semnat sau uns ) ulhs rd adresă mutare rf zaro (deplasare la valoarea zero) mov? R unaligned store haitword ush rd adresă mută ȘI nu zero (mută la o valoare diferită de zero) movn R ramură (ramură condiționată) b Labei inmultiti si adaugati (S sau yns ) madrls R oranch ori egal zero (salt conditionat daca zero) beqz n L înmulțiți și scădeți (S sau gns ) msubs ramură op compare (srgrred sau unsigned) (la ■ It le gt de) (salt condiționat la rezultatul comparației) bxs rs, rt L ramură op zero și Imk (salt condiționat la zero CU REFERINȚĂ) bgezal set equal (set dacă este egal) seq rd rs rt branch op Care este suma lui A și B dacă reprezintă numere binare de biți fără semn în octal*? Rezultatul ar trebui să fie scris în formă octală Afișați întregul proces de soluție Exercițiile [ ] Care este suma lui A și B dacă reprezintă numere octale ale numerelor binare de biți stocate în format de valoare cu semn? Rezultatul trebuie scris în octal Arată întregul proces de soluție ] Convertiți A într-un număr zecimal, presupunând că nu are semn Repetați exercițiul presupunând că acest număr este stocat • în format de valoare cu semn Arată întregul proces de soluție Tabelul arată și perechi de numere octale: I A B | ] Care va fi rezultatul evaluării expresiei A - B dacă aceasta conține numere binare de biți fără semn în numere octale? Rezultatul trebuie scris în octal Arată întregul proces de soluție [ ) Care ar fi rezultatul evaluării expresiei A B dacă ar reprezenta numere binare de biți în numere octale stocate ca valori cu semn? Rezultatul trebuie scris în octal Arată întregul proces de soluție ( ] Convertiți A în binar Ce face baza (octal) atractivă pentru un sistem numeric care reprezintă valori într-un computer? Exercițiul Sistemul numeric hexazecimal (bază ) este adesea folosit pentru a reprezenta valori în computere Acest sistem a devenit mai popular decât sistemul octal Tabelul prezintă perechi de numere hexazecimale: Si in a ' b BĂTo І І ( | Care este suma lui A și B dacă reprezintă numere binare fără semn de biți în hexazecimal? Rezultatul trebuie scris în hexazecimal Arată întregul proces de soluție ( ] Care este suma lui A și B dacă reprezintă numere binare cu semn de biți în format hexazecimal? PC Rezultatul trebuie scris în hexazecimal Arată întregul proces de soluție [ ) Convertiți A într-un număr zecimal, presupunând că este un număr fără semn Repetați exercițiul, presupunând că acest număr este stocat în format de valoare cu semn Arată întregul proces de soluție Capitolul Aritmetica pentru calculatoare Tabelul prezintă și perechi de numere hexazecimale A B un BA C A b AARE BE i [ Care va fi rezultatul evaluării expresiei A - B dacă reprezintă numere binare de biți fără semn în numere hexazecimale? Rezultatul trebuie scris în hexazecimal Afișați întregul proces de soluție | | Care va fi rezultatul evaluării expresiei A - B dacă reprezintă numere hexazecimale ale numerelor binare cu cifre IB stocate în format de valori cu semn? Rezultatul trebuie scris în hexazecimal Arată întregul proces de soluție ] Convertiți A într-un număr binar Ce face baza It (hexazecimal) atractivă pentru un sistem numeric care reprezintă valori într-un computer? Exercițiul O depășire are loc atunci când rezultatul este prea mare pentru a fi reprezentat cu acuratețe de lungimea dată a cuvântului finit Depășirea are loc atunci când numărul este prea mic pentru a fi reprezentat corect, cum ar fi atunci când rezultatul este negativ cu calcule aritmetice fără semn (Cazul în care un rezultat pozitiv se obține prin adăugarea a două numere întregi negative! este, de asemenea, considerat de mulți un underflow, dar în această carte este tratat ca un overflow ) Următorul tabel prezintă perechi de numere zecimale A a b ( ] Să presupunem că A și B sunt numere zecimale reprezentate de numere întregi binar de biți fără semn Evaluați rezultatul expresiei A - B Are loc o depășire sau o depășire, sau aceste evenimente reușesc să fie evitate? ( ] Să presupunem că A și B sunt numere zecimale scrise ca numere întregi binare de biți stocate ca format de valoare cu semn Evaluați rezultatul expresiei A + B Apare dacă are loc depășire sau depășire, sau pot acestea evenimentele să fie evitate? [ ] Să presupunem că A și B sunt numere zecimale reprezentate de numere întregi binare de biți stocate în format Exercițiul Interpretare semnată Evaluați rezultatul expresiei A - B Acest lucru are ca rezultat un depășire sau un depășire insuficientă sau sunt evitate aceste evenimente? Tabelul arată și perechi de numere zecimale: i A B dacă L® ( | Să presupunem că A și B sunt numere zecimale reprezentate de numere întregi binare cu semn de biți stocate în format complement a doi Evaluați rezultatul expresiei A + B folosind aritmetica de saturație Rezultatul trebuie scris în forma zecimală Arată întregul proces de soluție [ ] Să presupunem că A și B sunt numere zecimale reprezentate de numere întregi binare cu semn de biți stocate în ■ format de complement a doi Calculați rezultatul expresiei A B folosind aritmetica de saturație Rezultatul trebuie scris sub formă zecimală Arată întregul proces de soluție ] Să presupunem că A și B sunt numere zecimale reprezentate prin numere întregi binare fără semn de biți Evaluați rezultatul expresiei A * B folosind aritmetica de saturație Rezultatul trebuie scris în formă zecimală Arată întregul proces de soluție Exercițiul Să aruncăm o privire mai atentă asupra înmulțirii Să folosim numerele din tabel A B a b ( ] Pe baza unui tabel precum cel prezentat în Fig , se calculează produsul numerelor octale A și B, reprezentate ca numere întregi fără semn pe biți, folosind echipamentul prezentat în Fig conţinutul fiecărui registru la fiecare pas de calcul | | Pe baza unui tabel ca cel prezentat în fig Calculați produsul numerelor hexazecimale A și B, reprezentate ca numere întregi de biți fără semn, folosind echipamentul prezentat în fig Afișați conținutul fiecărui registru la fiecare pas de calcul | ] Scrieți un program în limbaj de asamblare MIPS care calculează produsul numerelor întregi fără semn A și B, folosind abordările prezentate în Figura Capitolul Aritmetica pentru calculatoare Tabelul prezintă perechi de numere octale A B a b | | Când înmulțiți numerele cu semn, o modalitate de a obține răspunsul corect este să convertiți multiplicatorul și multiplicatorul în numere pozitive, păstrați semnele originale și apoi ajustați valoarea finală în consecință Pe baza unui tabel ca acesta care este prezentat în fig , se calculează produsul numerelor A și B folosind echipamentul prezentat în fig Afișați conținutul fiecărui registru la fiecare pas de calcul și includeți pasul necesare pentru a obține un rezultat cu semnul corect Sa spunem că A și B sunt stocate în valori binare cu semn de biți [ Când deplasați o valoare de registru cu un bit spre dreapta, există mai multe moduri de a decide care ar trebui să fie noua intrare! deversare Poate fi întotdeauna zero sau întotdeauna unul, sau cifra de intrare poate fi aceeași cifră care a fost împinsă din „partea” dreaptă (în acest caz, schimbarea se transformă într-un ciclu ciclic), sau valoarea cifrei din stânga poate fi pur și simplu să fie păstrat (cu așa-numita deplasare aritmetică la dreapta, deoarece semnul numărului deplasat este stocat în acest bit) Folosind tabelul prezentat în Fig se calculează produsul numerelor binare de rânduri A și B cu complementul a doi obținut cu ajutorul echipamentului prezentat în fig Schimbarea la dreapta trebuie efectuată folosind operația aritmetică de schimbare la dreapta Vă rugăm să rețineți că, pentru aceasta, algoritmul descris în Teveta trebuie să fie ușor ajustat, în special, cu un multiplicator negativ, totul se poate întâmpla diferit Detalii pot fi găsite pe Internet Afișați conținutul fiecărui registru la fiecare pas de calcul [ ] Scrieți un program în limbajul de asamblare MIPS care bi calculează produsul numerelor întregi cu semne A și B Raportați dacă abordările prezentate în exercițiul sau exercițiul sunt utilizate pentru aceasta Exercițiul Din multe motive, există dorința de a crea un dispozitiv de multiplicare mai rapid Au fost folosite multe abordări diferite pentru a atinge acest obiectiv În tabelul următor, coloana A reprezintă lățimea întregului în cifre binare, iar coloana B reprezintă numărul de unități de timp (timp umts -tu) petrecute pe pas de operație A (lățime • cifre binare) (număr de unități de timp) a b a [ ] Calculați timpul necesar pentru efectuarea înmulțirii folosind abordările prezentate în fig și dacă întregul este -e* - Exercițiile ■■principiul A prin cifră și fiecare pas al operației necesită B unități de timp Rețineți că acesta este în pasul , iar adunarea este întotdeauna efectuată - fie cu multiplicand, fie cu zero De asemenea, luați în considerare că registrele sunt deja inițializate (numarați doar durata ciclului de înmulțire în sine) Dacă acest lucru se face prin hardware, atunci deplasările multiplicand și multiplicator se pot face simultan, dacă se face prin software, aceste deplasări trebuie făcute una după alta Faceți un calcul pentru ambele cazuri ( | Calculați timpul necesar pentru a efectua înmulțirea r folosind abordarea descrisă în text (secvența de de sumători) dacă întregul are A biți lățime și sumatorul ia B unități de timp [ ] Calculați timpul necesar pentru a efectua înmulțirea utilizând abordarea prezentată în Figura Dacă întregul are L biți lățime și sumatorul ia B unități de timp Exercițiul Acest exercițiu va analiza alte două moduri de a crește pronunția înmulțirii, bazate în primul rând pe efectuarea mai multor schimburi și mai puține operații aritmetice Tabelul arată o pereche de numere hexazecimale: F A c fi c b [ ] După cum sa discutat în text, o modalitate de a îmbunătăți performanța este de a schimba și adăuga în loc de a înmulți efectiv Deoarece * de exemplu, poate fi rescris ca ( * * + )* * poate fi calculat deplasând la stânga de trei ori și apoi adăugând la rezultat Afișați cel mai bun mod de a calcula expresia A * B folosind deplasări și adunări-scăderi, cu condiția ca A și B să fie numere întregi binare fără semn pe rânduri [ ] Afișați cel mai bun mod de a calcula expresia A * B folosind deplasări și adunări atunci când L și B sunt numere întregi binari de biți stocate în format de valoare cu semn | | Scrieți un program în limbajul de asamblare MIPS care efectuează înmulțirea întregului cu semn și utilizează deplasarea și adunarea așa cum este descris în Exercițiul Următorul tabel arată încă două perechi de numere hexazecimale: l V a b F E Capitolul Aritmetica pentru calculatoare [ ] O altă modalitate de a reduce cantitatea de aritmetică operațiunile necesare pentru a efectua înmulțirea este aplicarea algoritmului lui Booth Acest algoritm există de mulți ani iar detaliile muncii sale pot fi găsite online Practic, se presupune că deplasarea durează mai puțin timp decât adunarea sau scăderea, iar acest fapt este folosit pentru a evidenția numărul de operații aritmetice necesare pentru a efectua o înmulțire Funcționează prin detectarea unei secvențe de sau și efectuând schimbări până la sfârșitul acelei secvențe Găsiți o descriere pentru alp>pnt*z și explicați în detaliu cum funcționează [ ] Afișați pas cu pas rezultatele înmulțirii numerelor Ant folosind algoritmul lui Booth, având în vedere că A și B sunt numere întregi binare de biți, complement a doi stocate în format hexazecimal [ ] Scrieți un program în limbaj de asamblare de executat; înmulțirea numerelor A și B folosind algoritmul lui Booth Exercițiul Să aruncăm o privire mai atentă asupra diviziunii Tabelul va folosi „numere octale”: A B a b [ ] Folosind un tabel ca acesta care este prezentat în fig Calculați rezultatul împărțirii lui A la B folosind echipamentul prezentat în fig I Afișați conținutul fiecărui registru la fiecare pas, gp h cu condiția ca A și B să fie reprezentați prin numere întregi binari de biți cu semnul " [ ] Folosind un tabel ca cel prezentat în Figura d, calculați rezultatul împărțirii lui A la B folosind echipamentul prezentat în Figura Afișați conținutul fiecărui registru la fiecare pas, presupunând că A și B sunt numere întregi binare fără semn pe biți Acest algoritm necesită o abordare ușor diferită de cea prezentată în Fig Pentru a finaliza acest exercițiu, trebuie să vă gândiți cu atenție, să efectuați unul sau două experimente sau să accesați online pentru a determina cum să faceți față corect sarcinii (Sugestie: o soluție posibilă necesită utilizarea faptului că echipamentul prezentat în Figura implică faptul că registrul rămas poate fi deplasat în orice direcție ) [ | Scrieți un program în limbaj de asamblare pentru a calcula rezultatul împărțirii lui A la B folosind abordarea prezentată în Figura , cu condiția ca A și B să fie reprezentate prin numere întregi binari de biți de semn i-lea Exercițiul Următorul tabel arată încă două perechi de numere octale Si in a [ ] Folosind un tabel ca cel prezentat în fig veți găsi rezultatul împărțirii lui A la B folosind echipamentul prezentat în Afișați conținutul fiecărui registru la fiecare pas, presupunând că și B sunt numere întregi binar semnate pe biți Nu uitați să includeți o modalitate de a calcula semnul coeficientului și al restului [ ] Scrieți un program în limbaj de asamblare MIPS pentru a calcula rezultatul împărțirii lui A la B folosind abordarea prezentată în Figura trei condiții ca A și B să fie numere întregi cu semn Exercițiul Pe fig Figura prezintă algoritmul de împărțire cu restabilirea restului, deoarece atunci când divizorul este scăzut din rest, se obține un rezultat negativ, divizorul este din nou adăugat la rest (restaurându-și astfel valoarea) Dar au fost dezvoltați și alți algoritmi care exclud adăugările suplimentare Numeroase referințe la acești algoritmi pot fi găsite cu ușurință pe Internet Vom studia acești algoritmi folosind perechi de numere octale date în tabel * în la b | | Folosind un tabel asemănător goy prezentat în fig , calculați rezultatul împărțirii lui A la B folosind împărțirea fără restaurare Afișați conținutul fiecărui registru la fiecare pas, presupunând că A și B sunt numere întregi binare fără semn pe biți [ ] Scrieți un program în limbaj de asamblare MIPS care calculează rezultatul împărțirii lui A la B fără diviziune de rest, cu condiția ca A și B să fie numere întregi binari cu semn pe biți (complementul a doi) Capitolul Aritmetica calculatorului [ ] Cum se poate compara performanța divizării cu restaurarea și fără restaurarea restului? Demonstrați această comparație arătând numărul de pași necesari pentru a calcula rezultatul împărțirii lui A » B folosind fiecare metodă, presupunând că A și B sunt numere întregi binare pe rânduri (în format de valoare cu semn) Cu acest •> este posibil să scrieți un program pentru a efectua divizarea cu restaurare și restaurarea restului Următorul tabel prezintă cele două perechi de numere octale A B a b | | Folosind un tabel ca cel prezentat în figura , calculați rezultatul împărțirii lui A la B folosind diviziunea non-formus Arătați conținutul fiecărui registru la fiecare pas, presupunând că A și B sunt numere întregi binar fără semn de biți [ ] Scrieți un program în limbaj de asamblare MIPS pentru a calcula rezultatul împărțirii lui A la B folosind diviziunea latentă, cu condiția ca A și B să fie întregi binar cu semn pe biți* cu complement a doi [ ] Cum poți compara performanța unei divizii care nu se actualizează cu o diviziune inactivă? Demonstrați o astfel de bătălie arătând numărul de pași necesari pentru a calcula rezultatul înghețului A peste B folosind fiecare metodă, presupunând că A și B sunt numere întregi binari de biți (în format de valoare cu semn) În acest caz, este permis să scrieți un program pentru a efectua o ștergere inactivă și o împărțire cu restaurarea restului Exercițiul Diviziunea necesită atât de mult timp și efort încât Ghidul de optimizare CRAY TSE Fortran afirmă că „cea mai bună strategie pentru divizare este să o ocoliți ori de câte ori este posibil” Acest exercițiu explorează următoarele strategii pentru efectuarea operațiunilor de divizare a restaura și pe vl și vakhtse împărțire b divizia SRT | | Oferiți o descriere detaliată a algoritmului [ ] Utilizați o diagramă de flux (sau col în limbaj de nivel înalt) pentru a descrie algoritmul | | Scrieți un program în limbajul de asamblare MIPS efectuarea diviziunii folosind un algoritm Exercițiile Exercițiul În arhitectura von Neumann, grupurile de biți nu au o valoare intrinsecă proprie • valoare divizată Ce este o combinație de cifre, în întregime dependentă de modul în care este utilizată Tabelul arată combinația de cifre, afișată în notație hexazecimală m D OxAFBFOOOOO [ ] Ce număr zecimal reprezintă această combinație de cifre dacă este un întreg în complement a doi? Sau dacă este un număr ael nesemnat? [ ] Dacă această combinație de biți este plasată în Registrul de instrucțiuni atunci ce instrucțiune MIPS va fi executată? ] Ce număr zecimal reprezintă această combinație de cifre dacă este un număr în virgulă mobilă? Utilizați standardul IEEE Următorul tabel prezintă numerele zecimale: - , b , [ ] Scrieți reprezentarea binară a unui număr zecimal, presupunând formatul de precizie unică IEEE [ | Scrieți reprezentarea binară a numărului zecimal, presupunând formatul de precizie dublă IEEE [ ] Notați reprezentarea binară a unui număr zecimal, presupunând că este stocat folosind formatul IBM cu precizie unică (în bază în loc de bază , cu șapte biți per exponent) Exercițiul În standardul IEEE în virgulă mobilă, exponentul este stocat într-un format „mix” (numit și „Exces-N”, adică „cu un exces de N”) Această abordare a fost aleasă pentru că ne-am dorit setul tuturor zerourile să fie cât mai aproape de zero Datorită utilizării unuia ascuns, dacă reprezentați exponentul în format complement a doi, atunci setul tuturor zerourilor va fi de fapt numărul ! (Reamintim că orice număr la puterea lui zero este egal cu unu, adică ® - ) Există multe alte aspecte ale standardului IEEE care sunt recunoscute pentru a îmbunătăți viteza unităților hardware conceput pentru a lucra cu numere în virgulă mobilă Dar pe multe mașini mai vechi, calculele în virgulă mobilă au fost făcute în software și, astfel, au fost utilizate alte formate Tabelul arată numere zecimale: b , " ' - , " ' Capitolul Aritmetica pentru calculatoare [ ] Scrieți combinația de biți folosind o formulă similară cu cea utilizată în mașina DEC PDP- (cei biți din stânga* sunt exponentul stocat ca număr de complement a doi, iar cei de biți din dreapta sunt mantisa, stocată ca număr de complement a doi*) Unitățile ascunse nu sunt utilizate Comentați modul în care intervalul și precizia numerelor din această combinație de de biți diferă de cele din numerele cu precizie dublă standard- EEE [ ] Produsele NVIDIA au un format „jumătate” similar cu standardul IEEE , cu excepția faptului că utilizează doar biți Cifra din stânga este încă egală biți, exponentul are biți lățime și este stocat în format cxcess-lb, iar mantisa are biți lățime Se presupune că există o intrare ascunsă * tsy Scrieți combinația de cifre binare, presupunând că se folosește acest format * r Comentați modul în care intervalul și precizia numerelor din această combinație * pe biți diferă de numerele din standardul IEEE cu precizie unică [ | Pe mașinile Hewlett P^ckard , și și Calculați suma numerelor A și B pe hârtie, cu condiția ca A * B să fie în formatul NVID A pe biți descris în exercițiul j (și, de asemenea, în text) Utilizați câte o gardă, rotunjiți și o cifră fiecare și rotunjiți la cel mai apropiat număr par Afișați •> ♦ pașii de calcul [ ] Scrieți un program de asamblare M PS care calculează"" suma numerelor A și B, cu condiția ca acestea să fie stocate în format NVI IA pe biți descrise în exercițiul (precum și în text) Utilizați câte unul dintre rândurile de protecție, rotunjire și memento și rotunjiți până la cel mai apropiat număr par [ ] Scrieți un program de asamblare MIPS care calculează ■ suma numerelor A și B cu condiția ca acestea să fie stocate în formatul descris în Exercițiile „rim Acum modificați programul pentru a-l adapta pentru a calcula suma folosind formatul descris în Exercițiul Cu ce format este mai convenabil să lucreze un programator? Oferiți o comparație a fiecăruia dintre formatele y- ix în raport cu formatul IEEE Exercițiul Înmulțirea numerelor în virgulă mobilă este mult mai dificilă decât scăderea numerelor în virgulă mobilă, dar dificultatea celor două operații palidează în comparație cu dificultatea împărțirii L*in , " , " , ■ , " | ) Înmulțiți numerele A și B pe hârtie, cu condiția ca A și B să fie stocate în formatul NVID A pe biți descris în exercițiul (și, de asemenea, în text) Folosiți câte o cifră de gardă, rotunjire și memento și rotunjiți la cel mai apropiat număr par Afișați toți pașii de calcul; cu toate acestea, înmulțirea se poate face într-un format care poate fi citit de om, așa cum se face în exemplul din text, în loc să se utilizeze tehnicile descrise în exercițiile - Arată dacă calculul are depășire sau depășire Scrieți răspunsul ca o combinație binară de biți și, de asemenea, ca un număr zecimal Cât de precis este rezultatul? Cum arată în comparație cu numărul obținut prin înmulțirea la calculator? [ ] Scrieți un program în limbajul de asamblare MIPS înmulțind numerele A și B cu condiția ca acestea să fie stocate în format IEEE Arătați dacă în calcul apare depășire sau depășire (Rețineți că formatul IEEE presupune un singur bit de securitate, rotunjire și solicitare și rotunjirea numerelor la cel mai apropiat număr par ) [ ] Scrieți un program în limbaj de asamblare MIPS care înmulțește numerele A și B, cu condiția ca acestea să fie stocate în formatul descris în exercițiul Cum se modifică programul pentru a calcula produsul, presupunând că se utilizează formatul descris în exercițiul ? Cu ce format este mai ușor să lucreze pentru un programator? Comparați fiecare dintre aceste formate cu formatul IEEE (Nu este necesar să se ia în considerare utilizarea biților de memento ) Tabelul arată încă două perechi de numere zecimale: A B " OJ' " > b - , " -' , " KU Capitolul Aritmetica calculatorului [ ] Împărțiți pe hârtie numărul A la numărul B Arătați toți pașii necesari pentru a obține răspunsul Anticipați prezența gărzilor de rotunjire și de memento și folosiți-le dacă este necesar i Scrieți răspunsul final în virgulă mobilă de biți și în format zecimal și comparați rezultatul zecimal cu acesta care bul * a primit pe calculator Livermore Loops Benchmark este un set de componente de bază ale calculelor caracteristice intensive luate din cadrele științifice ale Laboratorului Național Liezermore E Lawrence Tabelul arată da a componentelor de bază din acest set, descrierea acestora poate fi găsită la http www netlib arg/benchmark/ ivermore: o buclă Livermore b Livermore Loop | | Bucla de scriere în limbajul de asamblare MIPS Oferiți o descriere detaliată a unei tehnici pentru efectuarea diviziunii în virgulă mobilă pe un computer digital Asigurați-vă că includeți link-uri către sursele de informații pe care le utilizați Exercițiul Operațiile efectuate pe numere în virgulă fixă se comportă previzibil - se supun legilor comutative, asociative și distributive Dar aceste legi nu funcționează întotdeauna asupra numerelor în virgulă mobilă În primul rând, să ne uităm la legea asociativă Tabelul prezintă un set * de numere zecimale: A B C ■ - , " * , * * , " IO x , " , " [ ] Calculați pe hârtie (A + B) + C, presupunând că A B și C sunt stocate în formatul NV DIA pe biți descris în Exercițiul IJ (și, de asemenea, în text ) Folosiți câte o cifră pentru protecție, rotunjire și încorporare și rotunjiți la cel mai apropiat număr par Afișați pașii și scrieți răspunsul în binar de biți pentru numere cu virgulă mobilă și în zecimal [ Calculați pe hârtie A + (B + C), cu condiția ca * B și C sunt stocate în formatul NV DIA pe biți descris în Exercițiul (și, de asemenea, în text) Folosiți câte o cifră pentru protecție, rotunjire și minus și rotunjiți la cel mai apropiat număr par Afișați pașii w și scrieți răspunsul în binar de biți pentru numerele cu un punct final și în zecimală Exercițiul ( ] Pe baza răspunsurilor obținute la exercițiile și , răspundeți la întrebarea dacă egalitatea * B) * C-A + (B + C)? Următorul tabel prezintă un alt set de numere zecimale A B C L , " KG , " , " ș * » » ] ( ] Calculați pe hârtie (A * B) * C, cu condiția ca A, : și C să fie stocate în formatul NVIDIA pe biți descris în Exercițiul * și în text ) Folosiți câte o cifră de gardă, rotunjire și memento fiecare și rotunjiți la cel mai apropiat număr par Afișați toate ligile și scrieți răspunsul în virgulă mobilă binară de biți și zecimală [ Calculați A * (B * C) pe hârtie, cu condiția ca A B și C să fie stocate în formatul NVIDIA pe biți descris în Exercițiul la și, de asemenea, în text) Folosiți câte un bit de gardă, rotunjire și memento fiecare și rotunjiți la cel mai apropiat număr par Afișați toate whig-urile și scrieți răspunsul în format binar cu virgulă mobilă și zecimală pe biți | Pe baza răspunsurilor din exercițiul și , este (AxB)xC-Ax(BxC) adevărat? Exercițiul Legea asociativă nu este singura care nu este respectată în ceea ce privește numerele în virgulă mobilă Există și alte ciudatenii Tabelul prezintă un set de numere zecimale: A B C L , " , " , " b - , " Yu - , " , * * [ ] Calculați pe hârtie A * (B + • C), cu condiția ca A B și C să fie stocate în format NVIDIA pe biți descrise în exercițiu (și, de asemenea, în text) Folosiți câte o cifră pentru protecție, rotunjire și mementouri și rotunjiți până la cel mai apropiat număr par Afișați toți pașii și scrieți răspunsul în binar de biți pentru virgulă mobilă și zecimală ( ] Calculați (A * B) + (A x C) pe hârtie, presupunând că A B și C sunt stocate în formatul NVIDIA pe biți descris în exercițiu (și, de asemenea, în text) Utilizați un nivel de protecție, rotunjire Capitolul Aritmetica calculatorului și mementouri și rotunjiți la cel mai apropiat număr par Afișați toți pașii și scrieți răspunsul în binar de biți pentru virgulă mobilă și zecimală [ ] Pe baza răspunsurilor dvs din exercițiile și , răspundeți la întrebare dacă (A*B)*(AxC) - Ah (B * C) ? Următorul tabel prezintă un alt set de numere zecimale: Si in a / b - / ' [ ] Folosind formatul IEEE în virgulă mobilă, scrieți modelul de biți care reprezintă numărul A Puteți reprezenta exact numărul A? ] Ce rezultat se va obține adunând* numărul A la sine de B ori? Ce va fi egal cu A » B? Cele două valori rezultate vor fi aceleași? Ce ar trebui să fie? ] ] Ce se întâmplă dacă luați rădăcina pătrată a lui B a - apoi înmulțiți această valoare cu ea însăși? Ce ar trebui să obțineți" Faceți acest exercițiu atât pentru numere cu precizie simplă, cât și pentru numere duble (Scrieți un program pentru a face aceste calcule ) Exercițiul Utilizarea numerelor binare în mantise este opțională Pe computerele IBM, unele formate în virgulă mobilă folosesc, de exemplu, numere în bază Sunt posibile și alte abordări, fiecare cu propriile puncte tari și puncte slabe Tabelul arată fracțiile pentru npt pentru a le reprezenta în diferite formate în virgulă mobilă: a I / *І b / ( | Scrieți combinația de cifre binare în mantisă, cu condiția să folosească formatul binar în virgulă mobilă (exact got cu care v-ați ocupat în acest capitol) Folosiți binar: cifre și nu rămâneți la normalizare Va fi această reprezentare perfect exactă? Scrieți combinația de cifre binare în mantise, cu condiția să folosească formatul de număr în virgulă mobilă BCD, zecimal codificat binar (baza ) în locul numerelor din radix Folosiți de biți și nu respectați normalizarea Va fi această reprezentare absolut exactă? Răspunsuri la întrebări pentru autoexaminare |І | Scrieți o combinație de cifre binare în mantisă, cu condiția să folosească baza în loc de numere de bază Baza folosește simbolurile - și A-E ) Folosiți de cifre binare și nu respectați normalizarea Will această reprezentare să fie absolut exactă? | | Scrieți combinația de cifre binare în mantise, cu condiția ca aceasta să folosească baza în loc de baza (Caracterele - și A-F sunt folosite în baza , iar utilizează caracterele - și A-T ) Folosiți de biți și nu rămâneți la normalizare Va fi această reprezentare absolut exactă? Vedeți vreun beneficiu în folosirea acestei abordări? Răspunsuri la întrebări pentru autoexaminare Secțiunea : Secțiunea : Capitolul Procesor În general, nu există detalii irelevante francez Po/Olores Introducere Capitolul a vorbit despre asta că performanța computerului este determinată de trei factori cheie: numărul de instrucțiuni, durata! ciclu de ceas și numărul de cicluri de ceas per instrucțiune (CPI) că numărul de instrucțiuni necesare pentru un program dat este determinat de compilator și arhitectura setului de instrucțiuni Introducere ■Durata ciclului de ceas și numărul de cicluri de ceas per instrucțiune sunt determinate de implementarea procesorului Acest capitol va discuta despre dezvoltarea unui bloc de operare și a unui bloc de control pentru două implementări diferite ale setului de instrucțiuni MIPS Capitolul va discuta principiile și tehnologiile utilizate în procesorul co- • - n începând cu o imagine de ansamblu extrem de abstractă și simplificată, care va fi prezentată în această secțiune Aceasta va fi urmată de o secțiune care completează ceea ce este creat, privind blocul de operare și construirea unei versiuni simple a procesorului i suficient pentru a implementa un set de instrucțiuni precum M PS Ultima parte a capitolului va analiza o implementare mai realistă a MIPS folosind pipelining, urmată de o secțiune care va extinde conceptele necesare pentru implementarea unui set de instrucțiuni mai complex precum x Pentru cititorii care doresc să înțeleagă interpretarea la nivel înalt a instrucțiunilor și impactul acesteia asupra performanței programului, această secțiune inițială, precum și Secțiunea , prezintă conceptele de bază ale pipeline-ului, cele mai recente tendințe sunt discutate în Secțiunea și Secțiunea „Scrierea” noul microprocesor AMD Opteron X (Barcelona) Această secțiune va oferi o cantitate suficientă de informații inițiale care vă permite să învățați la un nivel înalt conceptul de pipeline Cititorii care doresc să dobândească o înțelegere mai profundă a designului procesorului și a performanței acestuia vor găsi util să studieze Secțiunile , și Cititorii interesați de proiectarea procesorului ar trebui să studieze, de asemenea, secțiunile , , și Implementarea instrucțiunilor elementare MIPS Luați în considerare o implementare care include setul complet al setului de instrucțiuni MIPS de bază: ♦ instrucțiuni de acces la memorie care încarcă cuvântul - încărcare cuvânt ( w) și cuvântul de stocare (sw); ♦ instrucțiuni aritmetico-logice aod, sub, DFO, OR și slt; ♦ instrucțiuni de ramificare egală (beq) și de ramificare necondiționată (j), care vor fi adăugate ultimele Acest subset nu include toate instrucțiunile pentru lucrul cu numere întregi (de exemplu, nu include instrucțiuni de schimbare, înmulțire și împărțire) și nici nu include instrucțiuni pentru lucrul cu numere în virgulă mobilă Cu toate acestea, iată o ilustrare a principiilor cheie utilizate în crearea blocului de operare și proiectarea blocului de control Implementarea tuturor celorlalte instrucțiuni se realizează în conformitate cu principii similare Când se studiază implementarea, va fi posibil să se înțeleagă asta modul în care arhitectura setului de instrucțiuni determină multe aspecte ale implementării și modul în care alegerea mai multor strategii de implementare afectează viteza de ceas a computerului și CPI Atunci când luați în considerare problemele de implementare, pot exista Capitolul Procesor Sunt ilustrate multe dintre principiile cheie de proiectare introduse în Capitolul De exemplu, principii precum „sarcinile comune ar trebui făcute mai repede” și „simplitatea preferă persistența” În plus, majoritatea conceptelor utilizate în implementarea setului complet de instrucțiuni MH din acest capitol sunt aceleași idei de bază care au fost folosite pentru a proiecta o gamă largă de computere, de la servere de înaltă performanță până la microprocesoare de uz general pentru embedded sisteme Prezentare generală a implementării Capitolul a acoperit instrucțiunile de bază MIPS, inclusiv instrucțiuni de logică aritmetică pentru lucrul cu numere întregi, instrucțiuni de inversare și de memorie și instrucțiuni de salt condiționat Cea mai mare parte a ceea ce trebuie făcut pentru a implementa aceste instrucțiuni este aceeași, indiferent de clasa de instrucție specifică Primii doi pași pentru fiecare instrucțiune codeduck Introduceți în contorul de programe (PC) valoarea adresei celulei de memorie care conține codul i și extrageți instrucțiunea din acea celulă Citiți valoarea unuia sau a două registre utilizând câmpurile de instrucțiuni pentru a selecta ce registre să citiți Pentru instrucțiunea de încărcare a cuvântului (load worti) trebuie citit doar un registru, majoritatea celorlalte instrucțiuni necesită citirea a două registre După acești doi pași, pașii necesari pentru a completa instrucțiunea depind de clasa instrucțiunii Datorită unei combinații fericite de circumstanțe, pentru fiecare dintre cele trei clase de instrucțiuni (acces la memorie, salt aritmetic-logic și unghiular), acțiunile, indiferent de instrucțiunea specifică, sunt foarte asemănătoare Simplitatea și persistența setului de instrucțiuni MIPS ѵsimplificați implementarea datorită asemănării execuției instrucțiunilor din multe clase De exemplu, toate clasele de instrucțiuni, cu excepția instrucțiunii de salt, folosesc o unitate logică aritmetică (ALU) după citirea registrelor Instrucțiunile de acces la memorie folosesc ALU pentru a calcula adresa, instrucțiunile logice aritmetice pentru a efectua operații și instrucțiunile de salt condiționat pentru a compara După utilizarea ALU, acțiunile necesare pentru a finaliza instrucțiuni de diferite clase sunt diferite unele de altele Instrucțiunile de acces la memorie vor avea nevoie de un acces la memorie sau d citirea datelor în scopul descărcării sau pentru a scrie date în scopul stocării acestora, instrucțiunea Aritmetică-Logică sau instrucțiunea de încărcare trebuie să scrie date din ALU sau din memorie înapoi în registru În cele din urmă, pentru instrucțiunile de ramificare condiționată, poate fi necesară modificarea adresei instrucțiunii următoare pe baza comparației; în caz contrar, contorul programului va fi incrementat cu pentru a obține al|hh:a despre următoarea instrucțiune Pe fig Figura prezintă o vedere la nivel înalt a unei implementări MIPS care se concentrează pe diferitele unități funcționale și interconexiunea acestora Introducere Rk O reprezentare abstractă* a unei implementări a setului de instrucțiuni MIPS, care arată principalele* blocuri funcționale și principalele relații dintre ele Executarea instrucțiunilor „svh începe cu utilizarea contorului de programe (PC) pentru obținerea adresei instrucțiunii și a memoriei care stochează instrucțiunile După extragerea câmpului de instrucțiuni al acestei instrucțiuni, determin operanzii folosiți de aceasta, localizați în registre După preluarea operanzilor i registrele, aceștia pot fi procesați pentru a calcula adresa de memorie (pentru încărcare sau co-ealing), pentru a calcula rezultatul aritmetic (pentru instrucțiuni întregi aritmetice-lo-celulă) sau pentru comparație (pentru instrucțiuni de salt condiționat) Dacă instrucțiunea aparține clasei aritmetic-logic, rezultatul din ALU trebuie scris în registru Dacă instrucțiunea efectuează o operație de încărcare sau de stocare, rezultatul din ALU este folosit ca adresă pentru a stoca valoarea din registre sau pentru a încărca valoarea din memorie în registre Rezultatul din ALU sau din memorie este scris înapoi la dosarul de registru Salturile condiționate necesită utilizarea ieșirii ALU pentru a determina adresa următoarei instrucțiuni, care provine fie de la ALU (când se adaugă PC-ul și offset-ul de salt) fie de la un adunator care crește valoarea curentă a PC-ului cu sunt transmise mai multe semnale simultan Săgețile sunt folosite pentru a indica direcția fluxului de informații Deoarece autostrăzile de semnalizare se pot intersecta, prezența conexiunilor la intersecțiile lor este indicată prin puncte În primul rând, în mai multe locuri din fig Figura arată că datele direcționate către un anumit bloc provin din două surse diferite De exemplu, valoarea scrisă în contorul de programe (PC) poate proveni de la unul dintre cele două sumatoare datele scrise în fișierul de registru pot proveni fie de la ALU sau din memoria care stochează datele, iar a doua intrare a ALU poate primi date din registru sau din câmpul de date imediat al instrucțiunii În practică, aceste autostrăzi de date nu pot fi pur și simplu conectate electric între ele; aici este necesar să adăugați un element logic care să selecteze din mai multe surse și să direcționeze semnalul de la una dintre aceste surse către destinația sa De obicei, această alegere este făcută de un dispozitiv numit „Fișierul de înregistrare” în literatura națională este denumit și „matrice de înregistrare” sau „fișier de înregistrare” — Nrimech ed Capitolul Procesor multiplexoare, deși ar fi mai bine să numim acest dispozitiv un selector (kinny-Signal pe magistrala de control este setat în primul rând pe baza informațiilor extrase din instrucțiunea care se execută În al doilea rând, în Figura nu există un sistem care să gestioneze mai multe blocuri în funcție de tipul de instrucțiune care este executată I De exemplu, memoria care stochează datele trebuie citită la încărcare și scrisă la salvarea datelor Fișierul de registru trebuie scris la încărcare și la executarea unei instrucțiuni de logică aritmetică Și, desigur ALU trebuie să efectueze una din mai multe operații, așa cum am văzut în Capitolul La fel ca multiplexoarele dd, aceste operații sunt specificate pe magistralele de control, care sunt semnalizate pe baza conținutului diferitelor câmpuri de instrucțiuni Pe fig prezintă blocul de operare prezentat în fig , cu trei multiplexoare necesare adăugate, precum și cu magistralele de control pentru principalele blocuri funcționale Blocul de control care primește o instrucțiune la intrarea sa este folosit pentru a determina semnalele care urmează să fie trimise către magistralele de control pentru blocurile funcționale și două multiplexoare Al treilea multiplexor determină ce adresă va fi scrisă în contorul de programe Adresa PC-ului sau a ramurilor condiționate, este setată pe baza ieșirii ALU „Zero”, care este utilizată pentru a efectua o comparație în instrucțiunea din „Consecvența și simplitatea” instrucțiunilor MIPS înseamnă că pentru a seta sigt magistralele de control pot folosi un proces simplu de decodare În restul capitolului, această prezentare generală va fi rafinată pentru a crea o imagine mai brută, permițându-vă să adăugați următoarele blocuri funcționale, să creșteți numărul de conexiuni între blocuri și desigur, veți îmbunătăți noua unitate de control pentru a regla acțiunile întreprinse pentru diferite clase de instrucțiuni Secțiunile și discută implementări simple folosind un ciclu lung de ceas per instrucțiune, care* urmează noțiunea generală prezentată în Figura și În această construcție tocilar, fiecare instrucțiune începe să se execute pe o margine a pulsului și se termină pe cealaltă margine Deși ușor de citit, această abordare nu este practică, deoarece perioada ciclului de ceas trebuie prelungită pentru a găzdui w > i cea mai lungă instrucțiune După dezvoltarea unui sistem de control pentru acest computer simplu, vom lua în considerare o implementare folosind o conductă, cu toate complexitățile sale, inclusiv cu excepții Autotestare Câte dintre cele cinci componente clasice ale computerului prezentate la începutul capitolului includ circuitele prezentate în figurile și ? Convenții de proiectare logică Convenții de proiectare logică Pentru a lua în considerare proiectarea computerului, trebuie luată o decizie cu privire la implementarea sa logică va funcționa deja și modul în care va fi sincronizată * funcționează Această secțiune acoperă câteva idei cheie ale hickey-ului digital care va fi utilizat pe scară largă în acest capitol L beat "hereshd (ramură) Orez Implementarea de bază a subsetului de instrucțiuni MIPS, inclusiv toate multiplexoarele și magistralele de control necesare Multiplexorul superior (-Mix-) controlează valoarea care înlocuiește valoarea PC (PC ♦ sau adresa de ramură condiționată), multiplexorul este controlat de un element logic care efectuează o operație AND * pe ieșirea ALU ■Zero- și un semnal de control care indică faptul că că se execută o instrucțiune de ramificare condiționată Multiplexorul de mijloc, a cărui ieșire revine în fișierul de registru, este utilizat pentru a controla ieșirea ALU (în cazul executării unei instrucțiuni de logică aritmetică) sau ieșirea memoriei de date (în cazul încărcării) ) pentru a scrie în fișierul de registru În cele din urmă, cel mai mic multiplexor utilizat pentru a determina unde ALU va primi intrare de la regiștri (pentru o instrucțiune aritmetică-logică sau o instrucțiune de ramificare condiționată) sau din affset-ul instrucțiunii (pentru o încărcare sau o stocare) instrucțiune) Magistralele de control adăugate au un scop foarte clar și definesc operațiunea efectuată de ALU precum și necesitatea de a citi (sau de a scrie) date și de a efectua o operațiune de scriere ■ registre Pentru a face magistralele de control mai vizibile, acestea sunt gri Capitolul Procesor element de combinație Element operațional precum poarta AND sau ALU element de memorie Un element de memorie, cum ar fi un registru sau RAM Expus Un semnal care este logic ridicat sau semnal -adevărat- (adevărat) Tavernă nouă Un semnal care are un nivel logic scăzut Dispozitivele bloc de operare din implementarea MIPS constau din două tipuri diferite de elemente logice: cele care operează pe valorile datelor și cele care stochează starea Toate elementele care lucrează cu valori secrete sunt combinaționale, ceea ce înseamnă că semnalele lor de ieșire depind doar de semnalele de intrare curente Cu aceleași semnale de intrare, chimistul combinațional setează întotdeauna aceleași semnale de ieșire ALU prezentat în fig este un exemplu de element combinat Având în vedere un set de intrări, acesta produce întotdeauna aceeași ieșire, deoarece „” nu are stocare internă de date Alte elemente din construct nu sunt combinaționale, ci stochează starea Un element deține o stare dacă are stocare internă Aceste dispozitive se numesc elemente de stocare deoarece, dacă oprim alimentarea computerului, îl putem reporni încărcând elementele de stocare cu valorile pe care le conțineau înainte de ștecherul a fost deconectat Mai mult decât atât, dacă salvați și restaurați valorile elementelor de memorie, totul va fi într-o asemenea stare ca și cum computerul nu ar fi fost dezactivat Astfel, aceste elemente de stocare oferă o descriere completă a stării computerului Pe fig I Exemple de elemente de memorie includ memoria de instrucțiuni și date și registre Elementul de memorie are cel puțin două intrări și o ieșire Este necesar să se aplice la intrare valorile datelor scrise pe element și un impuls de ceas care determină momentul în care este scrisă valoarea datelor La ieșirea elementului de stocare, valoarea scrisă într-unul dintre ciclurile de ceas anterioare este setat care are doar aceste două intrări (valoare și ceas) și o ieșire Pe lângă flip-flop, implementarea noastră MIPS folosește și alte două tipuri de elemente de stocare, celule de memorie și registre, ambele fiind prezentate în Fig Impulsul de ceas determină când trebuie să fie scris elementul de stocare; valoarea acestui element poate fi citită în orice moment Componentele logice care conțin stare sunt denumite și secvențiale întrucât ieșirile lor depind atât de intrările cât și de conținutul stării interne De exemplu, ieșirea dintr-un bloc funcțional reprezentând registre depinde atât de numărul de registru furnizat, cât și de ceea ce a fost scris anterior în acele registre • Termenul asserted va fi folosit pentru a desemna un semnal care este logic înalt, termenul assert va fi folosit pentru a indica faptul că semnalul urmează să fie condus logic înalt, iar termenii neassertat și neafirmat vor fi folosiți pentru a reprezenta un nivel logic scăzut Convenții de proiectare logică Metoda de sincronizare Metoda de sincronizare determină când semnalele trebuie citite și când ar trebui să se potrivească Este important să stabiliți când să citiți și să scrieți, deoarece dacă un semnal este scris în același timp cu care este citit, valoarea citită ar putea fi valoarea veche, valoarea tocmai scrisă sau chiar o combinație a celor două! Proiectele computerelor nu pot tolera acest tip de imprevizibilitate Metoda de sincronizare este concepută pentru a fi previzibilă Pentru a simplifica situația, să presupunem că folosim metoda de ceas declanșată de margine Această metodă înseamnă că orice valori stocate în elementul logic serial sunt actualizate numai atunci când marginea ceasului trece elementele de memorie Intrarea sunt valorile care au fost scrise în timpul ciclului de ceas anterior, iar ieșirea sunt valorile care pot fi utilizate în timpul următorul ciclu de ceas Figura prezintă două elemente de memorie care funcționează în același ciclu de ceas: toate semnalele trebuie transmise de la elementul de memorie prin blocul logic combinațional la elementul de memorie într-un singur ciclu de ceas Durata ciclului de ceas este determinată de timpul necesar semnalului pentru a ajunge la elementul de memorie Pentru a menține lucrurile simple, semnalul de control de inițiere a scrierii nu este afișat aici, în timp ce elementul de stocare este scris pe fiecare muchie activă de ceas În schimb, dacă elementul de stocare nu este actualizat la fiecare impuls de ceas, un anumit semnal de control de inițiere a scrierii este necesară Semnalele de control de sincronizare și scriere sunt intrări, iar conținutul elementului de stocare este schimbat numai atunci când semnalul de control de scriere este afirmat și limita impulsului de sincronizare a trecut Metoda de sincronizare a frontului ascendent vă permite să citiți conținutul unui registru, să treceți valoarea prin logica combinațională și să scrieți valoarea în același registru într-un singur ciclu de ceas Indiferent de marginea ceasului, în creștere sau în scădere, vom presupune că scrierea are loc, deoarece intrările blocului logic combinațional nu se pot schimba decât pe marginea ceasului selectat Cu metoda de sincronizare pe partea frontală a pulsului Metoda de sincronizare Abordare utilizată pentru a determina momentul validității și stabilității datelor în raport cu impulsurile de sincronizare Sincronizarea pe fronturile impulsurilor Schema de sincronizare, în care toată lumea consta în schimbarea pe frontul pulsului de sincronizare controlul semnalului Semnalul utilizat pentru a selecta un multiplexor sau pentru a iniția o operație de bloc funcțional este opusul unui semnal de date, care conține informațiile pe care blocul funcțional operează Capitolul Procesor niciun răspuns nu apare într-un singur impuls de ceas, iar logica prezentată în Fig funcționează corect Ciclul Takiovy Orez Logica combinațiilor, elementele de memorie și sincroniile sunt strâns legate între ele Într-un sistem digital sincron, ceasul determină dacă polițiștii cu stare vor scrie semne pe stocarea internă Orice element de memorie introdus de date trebuie să primească o valoare stabilă (adică trebuie să primească o valoare care nu se schimbă până la următorul margine a ceasului) până la marginea ascendentă a ceasului declanșează o actualizare Toate elementele de stocare care sunt luate în considerare în această fază și în următoarea fază, inclusiv memoria, sunt considerate declanșate de margine Orez Metoda de declanșare prin margine va permite ca elementul de memorie să fie citit și scris în același ciclu de ceas fără a crea dispute care pot duce la ambiguitate în valorile datelor Râzi, ciclul de ceas trebuie să fie suficient de lung pentru ca valorile de intrare să se stabilizeze înainte de sosirea marginii active a pulsului de sincronizare Niciun răspuns nu are loc în interiorul pulsului rsync în sine, deoarece conținutul elementului de bruiaj este actualizat de-a lungul marginii sale Dacă reacția inversă ar fi posibilă, proiectul ar putea să nu funcționeze corect se bazează pe metoda declanșării marginilor și structuri similare cu cea prezentată în această figură Pentru o arhitectură MIPS pe de biți, aproape toate aceste elemente de memorie și logice vor avea intrări și ieșiri cu o lățime de de biți, deoarece majoritatea datelor procesate de procesor vor avea această valoare o cifră va fi afișată în figuri ca linii groase Uneori trebuie să combinăm mai multe magistrale pentru a forma o lată mai largă, de exemplu, putem dori să obținem o magistrală pe de biți combinând două magistrale pe biți În astfel de cazuri, semnele de pe autobuze vor explica faptul că am combinat autobuzele pentru a forma o magistrală mai largă Vor fi adăugate și săgeți pentru a ajuta la înțelegerea direcției fluxului de date către elementele mici În cele din urmă, semnalul de control, spre deosebire de semnal care trece prin date, vor fi evidențiate printr-o altă nuanță, această distincție va deveni mai clară pe măsură ce studiem acest capitol Crearea blocului de operare Autotestare Determinați dacă următoarea afirmație este adevărată sau falsă: Deoarece fișierul de registru este citit și scris într-un singur ciclu de ceas, orice bloc operațional M PS care utilizează scriere la margine trebuie să aibă mai mult de o copie a fișierului de registru Clarificare Există, de asemenea, o versiune pe de biți a arhitecturii MIPS și ceea ce este destul de firesc, majoritatea canalelor din implementarea sa vor avea o lățime de de biți În plus, folosim termenii „set* și „unset*”, pentru că se întâmplă ca unul să reprezinte un nivel logic ridicat, iar uneori acesta poate reprezenta un nivel logic scăzut Crearea unui bloc de operare Este logic să începeți dezvoltarea unei unități de operare prin învățarea componentelor de bază necesare pentru a executa fiecare clasă de instrucțiuni MIPS Să începem prin a lua în considerare ce elemente ale blocului operațional are nevoie de fiecare instrucțiune La demonstrarea elementelor blocului de operare vor fi afișate și semnalele de control ale acestora Pe fig a arată primul element de care avem nevoie: un bloc de memorie pentru stocarea instrucțiunilor de program, oferind instrucțiuni stocate la o anumită adresă În Figura este prezentat și contorul de programe (PC), care, așa cum am văzut în capitolul , este un registru care conține adresa instrucțiunii curente Și în sfârșit, avem nevoie de un acumulator pentru a crește valoarea contorului programului pentru a obține adresa următoarei instrucțiuni Acest adunator, care este un element combinațional, poate fi creat dintr-o ALU pur și simplu prin cablarea liniilor de control în așa fel încât numai operația de adăugare să fie întotdeauna definită nu poate îndeplini alte funcții ALU Pentru a executa orice instrucțiune, trebuie mai întâi să preluați acea instrucțiune din memorie Pentru a se pregăti pentru următoarea instrucțiune, contorul de program trebuie de asemenea să fie incrementat pentru a indica această instrucțiune cu patru octeți mai jos arată cum se combină cele trei elemente din fig pentru a forma un bloc de operare care preia instrucțiuni și incrementează PC-ul pentru a obține adresa următoarei instrucțiuni în secvență Acum să ne uităm la instrucțiunile în format R (vezi Tabelul ) Toți citesc conținutul a două registre, efectuează o operație AL U asupra conținutului registrelor și scriu rezultatul în registru Numim astfel de instrucțiuni fie instrucțiuni de tip R sau instrucţiuni aritmetico-logice element de operare purici Un bloc folosit pentru a efectua o operație asupra datelor sau pentru a le stoca în procesor În implementarea MIPS, elementele unității de operare includ instrucțiuni și dispozitive de stocare a datelor, un fișier de registru ALU și viperă Contor de comenzi (PC) Registrul care conține adresa instrucțiunii programului care se execută Capitolul Procesor (deoarece efectuează operații aritmetice sau logice) Această clasă include instrucțiunile add, sub, AND, OR și slt introduse în Capitolul Amintiți-vă că un exemplu tipic al unei astfel de instrucțiuni ar fi instrucțiunea add Stl Jt $t , care clipește conținutul St și ” la registrul Jtl a) memoria de instrucţiuni Orez Dm elalominakhtsih element necesar pentru a stoca instrucțiuni și acces la ele, iar sumatorul necesar pentru a calcula adresa următoarei instrucțiuni Aceste elemente de stocare sunt memoria de instrucțiuni și contorul de program Memoria de instrucțiuni ar trebui să ofere doar acces de citire, deoarece blocul op nu poate fi scris în instrucțiuni specificate pe intrarea adresei și nu necesită un semnal de control care inițiază o citire (Scriere către memoria de instrucțiuni va fi necesară la încărcarea programului, este ușor de adăugat, dar pentru a nu rata schema de cinci, va fi ignorată ) Contorul Comatsch este un registru de de biți care este scris la sfârșitul fiecare ciclu de ceas și, prin urmare, nu are nevoie de un semnal de control de inițiere a scrierii ) contor de programe Înregistrați fișierul Un element de stocare format dintr-un set de registre ale căror valori pot fi citite și scrise prin furnizarea unui număr de registru pentru a accesa datele Registrele de uz general deținute de procesorul sunt stocate într-o structură pe numită fișier registru Acest fișier este un set de registre în care fiecare registru poate fi citit sau scris prin specificarea numărului de intrare în fișier Fișierul de registru conține starea registrului computerului Pe lângă toate celelalte, avem nevoie de un ALU pentru a opera pe valorile* citite din registre Instrucțiunile în format R au trei operanzi de registru, astfel încât fiecare instrucțiune va necesita citirea a două cuvinte de date din fișierul de registru și scrierea unui cuvânt de date în acel fișier Pentru ca orice date să poată fi citite din registre, trebuie să existe o intrare în dosarul de registru, care să indice numărul registrului din care să citească datele, și o ieșire din fișierul de registru, care ar fi transferat; valoare de citit dintr-un registru Pentru a scrie un cuvânt de date, sunt necesare două intrări, una care indică numărul registrului în care urmează să fie scris și una care furnizează datele care urmează să fie scrise în registru Fișierul de registru scoate întotdeauna conținutul orice registre ale căror numere sunt setate pe -pktre Dar operațiile de scriere sunt controlate de un semnal de scriere special, care trebuie afirmat pentru ca scrierea să aibă loc la trecerea muchiei pulsului de ceas Crearea blocului de operare Îndeplinirea tuturor acestor cerințe este prezentată în Fig a: avem nevoie doar de patru intrări (trei pentru numerele de registru și una pentru date) și două ieșiri (ambele pentru date) Intrările numărului de registru au o lățime de biți pentru a specifica unul dintre cele de registre, iar intrarea și două ieșiri de date au o lățime de de biți Orez O parte a blocului operațional folosit pentru a prelua instrucțiuni și pentru a incrementa contorul de instrucțiuni Instrucțiunea preluată este utilizată de alte părți ale blocului de operare Pe fig Figura b prezintă un ALU care are două intrări de de biți și ieșire un rezultat de de biți și un semnal de bit dacă rezultatul este zero Un semnal de control pe biți este de asemenea aplicat ALU; Controlul ALU va fi discutat pe scurt atunci când va fi necesar să înțelegem instalarea acestuia Acum luați în considerare instrucțiunile MIPS pentru încărcarea unui elefant (încărcare cuvânt) și stocarea unui cuvânt (store word), care au forma generală lw Jtl set value ($r ) sau sw Jtl mix value ($t ) Aceste instrucțiuni calculează adresa de memorie adăugând valoarea registrului de bază stocată în registrul St la câmpul offset semnat pe biți conținut în instrucțiune Dacă este o instrucțiune de salvare, atunci valoarea de salvat trebuie să fie citită și din fișierul de registru și să fie în registrul Jtl Dacă aceasta este o instrucțiune de încărcare, atunci valoarea citită din memorie trebuie scrisă în fișierul de registru din registrul specificat, care este registrul Jtl Astfel, avem nevoie de fișierul de registru și ALU prezentate în Fig În plus, avem nevoie de un bloc de extensie de semn pentru a converti un alias de biți într-o valoare de de biți semnată și un bloc de date pentru citirea și scrierea datelor Magazinul de date trebuie să accepte o scriere atunci când execută instrucțiunile magazinului; Prin urmare această memorie trebuie să aibă semnale de control de citire și scriere, o intrare de adresă și o intrare pentru datele scrise în memorie Aceste două elemente sunt prezentate în fig Semnează extensii Folosit pentru a mări dimensiunea unui element de date prin repetarea celui mai semnificativ bit al elementului sursă în cei mai semnificativi biți ai elementului destinație mai mare Capitolul Procesor Cu Numere registre S Citit înregistrare Citiți Citiți datele înregistrare Fișier registre care pot fi scrise înregistrare Citiți Datele înregistrate date > Numerar a) dosare de înregistrare ) ALU Orez Pentru a implementa opțiunile ALU în format R, sunt necesare două elemente: un fișier de registru și un ALU Fișierul registru conține toate registrele și are un port DM pentru citire și ox* pentru scriere Fișierul registru setează întotdeauna conținutul registrelor pe ieșirile corespunzătoare intrărilor - Citire registru, setarea altor intrări de control și este necesar - spre deosebire de acesta , intrarea în registru trebuie să fie specifică este indicată prin setarea semnalului de control al scrierii Amintiți-vă că înregistrarea este declanșată când marginea pulsului ceasului trece, astfel încât până la trecerea acestuia, toate datele de intrare pentru înregistrare (adică valoarea fiind scrise, trebuie setate numărul de registru și semnalul de control al scrierii Deoarece fișierul de registru este scris pe marginea pulsului de ceas, designul nostru poate citi date și le poate scrie în același ciclu de ceas, la citire, valoarea scrisă la ciclul de ceas anterior va fi preluată, iar hack-ul scris va fi recuperat devin disponibile pentru citire la următorul ciclu de ceas Ciclul de ceas Toate intrările care transferă numărul de registru în fișierul de registru au o lățime de biți, iar magistralele de transfer de date au o lățime de de biți Operație efectuată de ALU este controlat de semnalul „ALU Operation”, care are o lățime de biți Vom folosi ieșirea Zero a ALU foarte curând pentru a implementa salturi condiționate Ieșirea de depășire nu va fi necesară până la Secțiunea - , care se ocupă de excepții, deci pentru acum vom omite Adresa țintă a ramurilor condiționate Adresa specificată în ramificația condiționată care, atunci când are loc ramificația, devine noua valoare a contorului de program (PC) În arhitectura MIPS, adresa țintă a ramificației condiționate se obține din suma valorii offset-ului câmpul (oHsel) al instrucțiunii și adresa instrucțiunii care urmează instrucțiunii de ramură condiționată Instrucțiunea beq are trei operanzi: doi registre care sunt testate pentru egalitate și un offset de biți utilizat pentru a calcula adresa țintă a saltului condiționat în raport cu adresa instrucțiunii de salt condiționat Această instrucțiune are formatul beq ttl JtZ offset Pentru a implementa această instrucțiune, trebuie să calculați adresa țintă a saltului condiționat - adăugați câmpul de amestecare al instrucțiunii extins, cu o valoare de contor de program (PC) Există două caracteristici în definiția instrucțiunilor de ramificare condiționată (vezi Capitolul ) cărora ar trebui să le acordați atenție: ♦ Arhitectura setului de instrucțiuni specifică că baza de evaluare a a tre * ramură condiționată este adresa instrucțiunii care urmează instrucțiunii de ramură condiționată Deoarece blocul op evaluează PC • (adresa următoarei instrucțiuni) atunci când instrucțiunea este preluată, această valoare poate fi folosită ca bază pentru calcularea adresei țintă a saltului condiționat ♦ Există, de asemenea, o prevedere în arhitectură că câmpul offset, offsp' Crearea blocului de operare yangs a lăsat biți pentru a face un amestec cuvinte multiple; ■і t shift mărește domeniul efectiv al câmpului de amestecare de ori a) bloc de memorie culturi de iarnă b) bloc de extensie hack *este , Cele două blocuri necesare implementării încărcărilor și salvărilor și adăugarea • fișierului de registru și ALU din fig , - bloc de memorie de date și extensie semn Blocul de memorie este un dispozitiv de stocare cu intrări pentru adresă și pentru date inscriptibile și o ieșire pentru rezultatul citirii datelor Acest bloc are pini de „gravare” separați, deși într-un anumit ciclu de ceas, confirmarea poate fi setată doar pe chiom și Memoria de blocare are nevoie de un semnal de citire deoarece, spre deosebire de un fișier de registru, scrieți valori folosind o adresă greșită, așa cum va fi arătat în Capitolul Acest lucru poate cauza probleme acele date sunt scrise în memorie pe marginea ascendentă a ceasului De fapt, cipurile de memorie standard au un semnal de activare a scriere care este utilizat de ■■o și această operațiune de activare a scrierea Hoth nu este controlată de partea din față a ceasului puls, instrucțiunea noastră controlat de-a lungul acestui front, poate fi ușor adaptat pentru a funcționa cu cipuri de memorie reale Pentru a face față ultimei dificultăți, va trebui să deplasăm zero de la interferență cu cifre Pe lângă calculul adresei țintă a condiționalului iieix -xo ia trebuie de asemenea să stabilim dacă următoarea instrucțiune va fi cea imediat următoare celei curente sau aceea care se află la adresa țintă a ramului condiționat Când condiția este îndeplinită (adică când operanzii sunt egali între ei), adresa țintă a ramului condiționat devine noua valoare a contorului programului (PC) si apoi se spune ca a avut loc ramura conditionala Dacă operanzii nu sunt egali între ei, valoarea curentă a PC-ului va fi înlocuită cu valoarea sa incrementată (pentru a indica următoarea instrucțiune normală); in acest caz, se spune ca ramura conditionata nu a avut loc Astfel, un bloc op care oferă o ramură condiționată trebuie să efectueze două operații: să calculeze adresa țintă a ramurii condiționate și să compare conținutul registrelor (Foarte curând vom întâlni faptul că ramurile condiționate afectează și partea din blocul operațional care este Ramura condiționată luată O ramură condiționată cu condiția îndeplinită și contorul de program (PC) setat la adresa țintă a ramurii condiționate Toate ramurile necondiționate sunt considerate a fi avut loc Ramura condițională eșuată O ramură condiționată cu o condiție eșuată și o valoare de contor de program (PC) a primit valoarea adresei instrucțiunii imediat după instrucțiunea de ramificare condiționată Capitolul Procesor regăsirea instrucţiunilor ) În fig prezintă structura părții blocului de operare care se ocupă cu furnizarea de salturi condiționate Pentru a calcula adresa de sare a unei ramuri condiționate, blocul op care oferă ramificația include un bloc de extensie a semnelor din fig și sumator Pentru a efectua comparația, trebuie să utilizați fișierul de înregistrare din Fig , a care prsdostayag? doi operanzi de registru (deși trebuie să scriem în fișierul de registru în acest caz *) În plus, trebuie făcută o comparație cu testarea ALU Deoarece ALU oferă o ieșire care indică rezultatul dorit, putem trimite doi operanzi de registru către ALU prin setarea semnalului de control e- ■ la scădere Dacă la ieșirea blocului ALU am setat semnalul Zero (Zero), vom ști că cele două valori sunt egale între ele Deși bine ieșirea semnalează întotdeauna că rezultatul este zero, îl vom testa doar pentru a implementa testul pentru egalitate atunci când condiția de tranziție este îndeplinită Mai târziu, vom arăta în detaliu cum să aplicăm semnale de control la ALU utilizat în blocul de operare Orez Blocul de operare care furnizează saltul condiționat folosește o ALU pentru calcularea condiției de salt și un sumator separat pentru a calcula pasajul adro țintă ca sumă a indexului incrementat al RS și a celor biți inferiori ai instrucțiunii (offset de ramificare condiționat) trecuți prin semnul rheshi , deplasat ■ sub bit Blocul etichetat -Leftshift by - este un adaptor simplu „signet” care le ia ca intrare și le scoate la ieșire cu o valoare de hand over • deoarece numărul de -shift- biți este o constantă Tach așa cum cunoaștem „offset-ul” câmpul a trecut prin expansiune de semn, fiind anterior de biți, apoi cu acest SZUT doar -biți de semn- vor fi aruncați Pentru a decide dacă este nevoie de o simplă creștere" valoarea PC-ului sau înlocuiți valoarea acestuia cu adresa țintă a condiționalului ramură, folosind logica de control bazată pe ieșirea Zero disponibilă în ALU Crearea unui bloc de operare Instrucțiunea de ramificare necondiționată este executată prin înlocuirea rvdon-ului inferior de de ori a contorului programului cu cei de biți inferiori ai instrucțiunii deplasați la stânga cu ia biți Această schimbare se face prin simpla adăugare a la offset-ul de tranziție care a fost deja tratat în capitolul Clarificare În setul de instrucțiuni MIPS, salturile condiționate sunt amânate, ceea ce înseamnă că instrucțiunea imediat următoare instrucțiunii de salt condiționat este întotdeauna executată, indiferent dacă condiția de salt este îndeplinită sau nu Când condiția nu este îndeplinită, execuția arată ca o continuare firească a program săritura condiționată amânată înainte de a sări efectiv la adresa țintă, mai întâi execută instrucțiunea imediat după instrucțiunea sa Motivul pentru astfel de sărituri amânate constă în efectul pipeline-ului asupra sărituri condiționate (vezi secțiunea c) Pentru a menține lucrurile simple, acest capitol tratările cu sărituri condiționate amânate vor fi cel mai adesea ignorate și vom implementa instrucțiunea bec efectuată fără întârziere Crearea unei singure unități de operare După studierea componentelor blocului de operare necesare pentru clasele individuale de instrucțiuni, acestea pot fi combinate într-un singur bloc de operare și se poate adăuga o structură de control pentru a finaliza implementarea acestuia Cea mai simplă unitate de operare va încerca să execute orice instrucțiune într-un singur ciclu de ceas Aceasta înseamnă că niciuna dintre resursele unui bloc operațional nu poate fi folosită de mai multe ori în executarea unei singure instrucțiuni, astfel încât oricare dintre elementele sale care sunt necesare de mai multe ori trebuie să fie duplicat Prin urmare, avem nevoie de memorie pentru instrucțiuni separată de memoria pentru date Deși unele blocuri funcționale trebuie duplicate, multe elemente pot fi partajate între diferite fluxuri de instrucțiuni Partajarea elementelor unui bloc de operare între două clase diferite de instrucțiuni poate necesita mai multe conexiuni la intrarea unuia sau altuia element folosind un multiplexor și un semnal de control pentru a selecta din mai multe intrări Exercitiul Crearea unei unități de operare Blocurile de operare pentru executarea instrucțiunilor aritmetico-logice (sau instrucțiuni de tip R) și instrucțiunile de lucru cu memorie sunt foarte asemănătoare între ele Următoarele diferențe cheie pot fi remarcate ♦ Instrucțiunile de logică aritmetică folosesc o ALU care primește date din două registre Instrucțiunile de memorie pot folosi, de asemenea, ALU pentru a calcula adresa, deși a doua intrare primește valoarea de biți a câmpului de confuzie al instrucțiunii, care a suferit extinderea semnelor ♦ Valoarea stocată în registrul de destinație provine din ALU (pentru o instrucțiune de tip R) sau din memorie (pentru încărcare) Salt condiționat reglat fin Un tip de salt condiționat care presupune că instrucțiunea care urmează imediat saltul condiționat este executată invariabil, indiferent dacă condiția de salt este îndeplinită sau nu fl Capitolul Procesor Arată cum poți crea o parte de execuție a blocului operațional pentru a executa accesul la memorie și instrucțiunile de logică aritmetică care utilizează un singur fișier de registru și un singur ALU pentru a opera pe ambele tipuri de instrucțiuni, adăugând orice număr de multiplexoare necesare pentru a face acest lucru Răspuns Pentru a crea o unitate de operare cu un singur fișier de registru și un singur A/ U, sunt necesare ambele suport pentru două surse diferite pentru a doua intrare a ALU, precum și două surse neclare pentru datele stocate în fișierul de registru Prin urmare, un multiplexor este plasat la intrarea ALU, iar al doilea este plasat la intrarea de date a fișierului de registru Orez Bloc operațional pentru executarea instrucțiunilor de memorie și a instrucțiunilor R-tmpa Acest exemplu arată cum un singur bg operațional poate fi asamblat din părțile prezentate în figurile și - prin adăugarea de multiplexoare Pe baza descrierii exercițiului, aici sunt necesare două multiplexoare Acum puteți combina toate componentele pentru a crea un singur op și nu bloc pentru arhitectura MIPS, împletind un bloc op pentru extragerea instrucțiunilor (Fig ), un bloc op pentru executarea unei instrucțiuni de acces la memorie și R- instrucțiuni de tip (Fig ) și un bloc de operare pentru efectuarea de sărituri condiționate (Fig ) Pe fig prezintă blocul operațional obținut prin combinarea componentelor individuale Instrucțiunea de ramificare condiționată folosește /SHU principal pentru a compara operanzii registrului, astfel încât sumatorul din Fig poate salva pentru a calcula ținta; adrese de sărituri condiționate Aici, este nevoie de încă un multiplexor pentru a selecta între adresa instrucțiunii imediat următoare celei de-a treia instrucțiuni curente (PC + ) și adresa țintă a saltului condiționat, care este scrisă pe PC După finalizarea achiziției acestei unități de operare, i se poate adăuga o unitate de control, care trebuie să perceapă intrarea Crearea unui bloc de operare • Încasați și generați un semnal de scriere pentru fiecare dispozitiv de stocare, un semnal de selecție pentru fiecare multiplexor și un semnal de control pentru ALU Acest semnal vizual diferă în mai multe moduri simultan și ar fi mai bine să începeți dezvoltarea unui sistem pentru generarea acestuia și abia apoi să începeți să construiți restul unității de control Yam Un bloc de operare simplu pentru arhitectura MIPS care combină elementele necesare pentru diferite clase de instrucțiuni Este compus din componentele prezentate în Figura și Acest bloc operațional este capabil să execute instrucțiuni de bază (încărcare-cuvânt, operațiuni ALU și salturi condiționate) într-un singur ciclu de ceas Este necesar un multiplexor suplimentar pentru a activarea tranzițiilor de salturi condiționate vor fi adăugate mai târziu Autotestare I Care dintre următoarele este adevărată pentru o instrucțiune de încărcare? Răspuns în raport cu blocul de operare prezentat în fig a) MemtoRcg trebuie setat să recupereze date din memorie și apoi să le trimită în fișierul de registru b) MemtoReg trebuie setat să selecteze corect registrul de destinație și apoi să trimită valoarea acestuia în fișierul de registru c) Nu trebuie să setați MemtoReg pentru încărcare Capitolul Procesor O unitate de operare care execută orice instrucțiune într-un ciclu, al cărei concept este descris în această secțiune, trebuie să aibă o memorie separată pentru instrucțiuni și date, deoarece: a) în MIPS, formatele de date și instrucțiuni diferă unele de altele și, prin urmare, necesită dispozitive de memorie diferite; b) dispozitivele de memorie individuale sunt mai ieftine; c) procesorul execută o instrucțiune într-un ciclu și nu poate folosi memoria care are un port pentru două accesări diferite la ea în timpul acestui ciclu O schemă simplă de implementare Această secțiune va analiza ceea ce poate fi considerat cea mai simplă dintre toate implementările posibile ale subsetului nostru de instrucțiuni M PS Această rsalizare simplă va fi construită utilizând blocul op discutat în ultima secțiune și adăugându-i o funcție simplă de control sw)) ramură condiționată prin egalitate (ramură egală (Deq)l și instrucțiuni aritmetico-logice de adunare (adunare) , scădere (sub) ȘI (ȘI) SAU (SAU) și setare dacă mai mic decât (set op mai puțin decât ) Puțin mai târziu, instrucțiunea va fi completată prin includerea unei instrucțiuni de săritură necondiționată (săritură (j)) Controlul unității logice aritmetice MIPS ALU definește următoarele șase combinații pentru cele patru intrări de control Liniile de control ALU Funcția J ȘI SAU J ooyu adaugă (adăugare) P scade set op mai puțin decât (setat dacă este mai mic decât) I NON(NU-SAU) În funcție de clasa de instrucție, ALU va trebui să îndeplinească una dintre aceste primele cinci funcții (NOR este necesar pentru o altă parte a setului de instrucțiuni MIPS care lipsește din subsetul pe care îl implementăm ) La executarea instrucțiunilor de încărcare a cuvântului și a cuvântului de stocare (cuvânt storc), ALU este utilizat pentru a calcula adresa de memorie prin adăugarea de numere Pentru instrucțiunile de tip R, ALU trebuie să efectueze una dintre cele cinci acțiuni (ȘI - ȘI, SAU - SAU scădere - scădere adunare - adăugare sau setare dacă este mai mică decât - setați op mai puțin decât), în Diagrama simplă de implementare ■ modificarea valorii focului zero de biți (sau funcției) în biții de ordin inferior ai instrucțiunii (vezi Capitolul ) Pentru instrucțiunile de ramificare condiționată ALU, efectuați o scădere Intrarea de control pe patru biți a ALU poate fi generată folosind un bloc de control mic care primește ca intrare o funcție de instrucțiune dincolo de și un câmp de control pe doi biți numit h i r , subtract - subtract( ) pentru instrucțiunea nq sau să fie determinat de operația codificată în câmpul de funcție funct( ) Ieșirea unității de control ALU este un semnal pe biți care controlează direct ALU, generând unul dintre modelele i-bit prezentate anterior În tabel Figura arată cum să setați intrările de control ALU pe baza unui câmp de control ALUOp de doi biți și a unui cod de funcție de șase biți Mai târziu în acest capitol, vom arăta cum sunt generați biții AiuOp de la unitatea principală de control Tabelul Ordinea în care sunt setați biții de control ALU depinde de conținutul biților de control ALUOp și de diferitele coduri de funcție pentru o instrucțiune de tip R Opcode-urile enumerate în prima coloană determină setarea biților ALUOp Toată codificarea este afișată în formă binară Trebuie remarcat faptul că cu valoarea codului ALUOp setată la sau , acțiunea ALU specificată este independentă de câmpul codului funcției; în acest caz, spune că nu ne interesează* care este valoarea câmpului de cod al funcției, iar conținutul câmpului funct este afișat ca XXXXXXX Dacă codul ALUOp este setat la , codul funcției este utilizat pentru a seta intrarea de control ALU Instrucțiune Opcode ALUOp Operare instrucțiune Câmpul funcțional Acțiune ALU care urmează să fie setată Intrarea de control ALU LW loadtMxd (încărcare cuvânt) XXXXXXX adăugare SW memorează cuvântul XXXXXX adăugare Bhapsg egal ramură egală (ramură condiționată prin egalitate) XXXXXXX scădere R-tip adăugați (adăugați) adăugați R-tip scădere (scădere) scăderi IT R-tip ANO(I) și R-tip OJ(OR) sau R-type set op mai puțin decât (setat dacă este mai mic decât) setat dacă este mai mic decât Capitolul Procesor Un stil similar de utilizare a mai multor niveluri de decodare la care unitatea de control principală generează ALL'Op bits folosind apoi' ca intrări pentru protecția blocului ALU este o tehnologie foarte comună |>alieation Utilizarea mai multor niveluri de control poate reduce dimensiunea unității principale de control Utilizarea mai multor unități de control mai mici poate crește, de asemenea, viteza unității de control Astfel de metode de optimizare joacă un rol important, deoarece viteza unității de control este un factor critic în determinarea duratei ciclului de ceas Există mai multe moduri diferite de a implementa maparea unui câmp ALUOp de biți și a unui câmp Tunet de biți pe patru biți ai controlului operațiunii AL> Deoarece doar un număr mic dintre cele de valori posibile ale câmpului funcției sunt de interes, iar acest câmp este utilizat numai atunci când valoarea bitului • ALUOp este , putem folosi o mică bucată de logică care recunoaște un subset de valori posibile și asigură că biții de control ALU sunt setați corect Ca pas intermediar în construirea unei astfel de logici, ar fi util să creăm un tabel de adevăr pentru combinațiile câmpului koya care ne interesează funcții și ranguri АіиОр cum se face în tabelul ; acest tabel adevărat arată cum este setat semnalul de control ALU pe biți în funcție de valorile acestor două câmpuri de intrare Deoarece întregul tabel de adevăr este prea mare ( x - intrări) și nu ne interesează valorile semnalelor de control ALU pentru multe dintre aceste combinații de intrare, aici sunt afișate doar acele intrări din tabelul de adevăr pentru care ALU semnalele de control trebuie să aibă o valoare bine definită De-a lungul acestui capitol, vom arăta numai acele intrări din tabelul de adevăr care formează semnalele de ieșire care urmează să fie setate și vom ignora intrările care nu pot fi setate sau care nu sunt de interes pentru noi Deoarece în multe cazuri nu ne interesează valorile unor intrări și pentru că dorim să păstrăm tabelele compacte, includem elementele indiferente Aceste elemente din acest tabel triiist (reprezentate prin X în coloana de intrare) indică faptul că semnalul de ieșire este independent de valoarea semnalului de intrare corespunzătoare acelei coloane De exemplu, atunci când biții ALUOp au valoarea OS ca în prima linie din Tabelul , setăm întotdeauna valoarea semnalului de control AL) la , indiferent de codul funcției În acest caz, codul funcției din acest sistem -tabelul de adevăr ne este indiferent Chui vor fi prezentate mai târziu exemple de alte tipuri" Odată construit tabelul de răzbunare, acesta poate fi optimizat și apoi* tabelul de adevăr Este destinat circuitelor logice și este o condiție prealabilă a unei operații logice prin enumerarea tuturor valorilor la intrări și demonstrând pentru fiecare caz individual ce ar trebui să fie obținut la ieșiri Element indiferent Un element al unei funcții logice a cărui ieșire este independentă de valorile tuturor intrărilor Elementele indiferente pot fi etichetate în moduri diferite elemente indiferente Schema simplă de implementare Semnale de ieșire din februarie Acest proces este pur mecanic, deci pașii finali nu sunt afișați aici Tabelul Tabelul de adevăr pentru cei patru biți de control ALU (numit Operație) ALUOp și câmpul de cod al funcției sunt utilizate ca intrări Sunt afișate doar acele înregistrări pentru care este setat semnalul de control ALU Lor li se adaugă câteva înregistrări ale stărilor indiferente De exemplu, ALUOp nu folosește codul , așa că în loc de și , tabelul de adevăr poate conține intrările IX și XI Trebuie remarcat faptul că atunci când sunt utilizate în instrucțiunile câmpului de funcție, primele două cifre (F și F ) ale acestor instrucțiuni au întotdeauna valoarea Prin urmare, acestea sunt elemente care nu le pasă și sunt înlocuite în tabelul de adevăr cu caractere XX Operare ALUOp Polo Punct ALUOp ALUOpO F F F F FI FO XXXXXX XXXXXX XX XXX XX XX XXX SAU Construcția unității principale de control După prezentarea descrierii designului ALU, care utilizează codul funcției și un semnal pe doi biți ca intrări la control, putem reveni la considerarea restului unității de control Mai întâi, să definim fracția de instrucțiuni și liniile de control necesare pentru blocul de operare prezentat în Figura Pentru a înțelege cum să asociați câmpurile de instrucțiuni cu un bloc op, este util să priviți formatele a trei clase de instrucțiuni: R-type, condițional jump și load-save Aceste formate sunt prezentate în Figura - Există o serie de observații importante despre acest format de instrucțiuni pe care ne vom baza: ♦ Câmpul op, numit și opcode, este întotdeauna conținut în : cifre Ne vom referi la aceste câmpuri ca p[ ] ♦ Partea de jos a registrului din care se citește este întotdeauna indicată în câmpurile rs și rt, la pozițiile : și : Această circumstanță este valabilă pentru instrucțiunile de tip R, instrucțiunea de ramificare condiționată pentru egalitate și instrucțiunea de stocare ♦ Registrul de bază pentru instrucțiuni de încărcare și salvarea este întotdeauna indicată în pozițiile ,țT ț oe Umazshmv, operație și pe cifrele : (r$) format de instrucție Capitolul Procesor ♦ Offset-ul de diviziuni pentru ramificare, încărcare și stocare condiționată este întotdeauna la pozițiile de biți : ♦ Registrul de destinație poate fi listat în unul din două locuri Pentru încărcare, este indicat în pozițiile de biți : (rt), iar pentru instrucțiuni de tip R în pozițiile cifrelor : (rd) Prin urmare, pentru a selecta câmpul de instrucțiuni utilizat pentru a specifica numărul de registru care trebuie scris, trebuie adăugat un multiplexor Câmp rs rt td shamt funct Petiția rangurilor Etaj» DE LA rt addren Petiția Yu ) manual de instrucțiuni sau tăiere Câmpul I- n adresa " Pomci rl "serie L : ® •) ""Instrucţiune de ramificare condiţionată Orez Trei clase* de instrucțiuni (tip R, încărcare și stocare, ramură condiționată) folosind diferite formate de instrucțiuni Instrucțiunile de ramificare necondiționată folosesc un alt format care va fi discutat în scurt timp a) Formatul de instrucțiuni de tip R a căror valoare opcode este întotdeauna Aceste instrucțiuni au trei operanzi de registru re rt și rd Câmpurile rs și rt sunt câmpurile sursă și rd este câmpul destinație Funcția ALU este reprezentată de câmpul fond și este decodificată de blocul de control ALU a cărui construcție a fost discutată în secțiunea anterioară Instrucțiunile de tip R pe care le implementăm includ adăugare - adăugare scădere - sub AND - AND, OR - OR și setați dacă este mai mic decât chom - sM Câmpul snamt este folosit doar pentru schimburi, va fi ignorat în acest capitol b) Încărcați (opcode ■ g) și stocați (opcode ■ ) formatul instrucțiunii rv este baza, iar valoarea acesteia este adăugată câmpului de biți pentru a forma adresa de memorie Pentru instrucțiunile de încărcare, registrul specificat în câmpul rt este registrul de destinație al valorii încărcate Pentru instrucțiunile de stocare, registrul specificat în câmpul rt este registrul sursă a cărui valoare urmează să fie stocată în memorie Formatul de instrucțiuni pentru salt condiționat pe egalitate (opcode ” ) Registrele specificate în câmpurile ha și rt sunt registre sursă care trec testul de egalitate câmpul de adresă pe biți este extins, deplasat și adăugat la valoarea contorului programului I f'C) pentru a calcula adresa de destinație a saltului condiționat Acesta este locul în care primul principiu de proiectare discutat în capitolul , simplitatea și consistența, se concretizează în definirea controalelor Folosind aceste informații, putem adăuga la simplul op block semnături de instrucțiuni și un alt multiplexor (pentru a introduce numărul de registru al fișierului de registru de scris) Aceste adăugări plus blocul de control, semnalele de scriere pentru elementele de stocare, semnalul de citire pentru memoria de date și semnalele de control pentru multiplexoare sunt prezentate în Fig Deoarece toate multiplexoarele au două intrări, fiecare dintre ele are nevoie de o linie de control separată Diagrama simplă de implementare Figura prezintă șapte linii de control pe un singur bit plus un semnal de control ALUOp pe doi biți Funcționarea semnalului de control ALUOp este deja a fost definit și acum este util să definim informal ce fac cele șapte semnale de control antale înainte de a determina modul în care sunt setate chițialele de control în timpul execuției instrucțiunilor Scopul tuturor celor șapte linii de control este prezentat în Tabelul RMS , Bloc de operare cu fig cu toate multiplexoarele necesare și toți identificatorii liniei de control Liniile de control sunt evidențiate cu gri Aici a fost adăugat și un bloc de control ALU Contorul de programe (PC) nu are nevoie de un semnal de control de scriere deoarece valoarea i se scrie o dată la sfârșitul fiecărui ciclu de ceas, ramura condiționată logica de control determină când valoarea sa curentă este incrementată sau adresa țintă a saltului condiționat După ce ne-am uitat la funcția fiecăruia dintre semnalele de control, ne putem uita la asta cum să le afișați Unitatea de control poate seta totul cu excepția unuia dintre semnalele de control, bazat exclusiv pe conținutul câmpului opcode al instrucțiunii Excepția este linia PCSrc Semnalul pe această linie de control ar trebui să fie setat dacă se execută instrucțiunea ramurii condiționate privind egalitatea - ramura op equal (această decizie poate fi luată de unitatea de control) și semnalul Zero este setat pe ALU, utilizat pentru testul de egalitate To generați semnalul PCSrc este necesar să efectuați operația AND cu un semnal de la unitatea de control, care se numește Branch (tranziție condiționată) și un semnal Zero la ieșirea ALU Capitolul Procesor Tabelul Acțiunea fiecăruia dintre cele șapte semnale de control Când un semnal de control de bit este afirmat pe un multiplexor cu două intrări, multiplexorul selectează numărul de intrare În caz contrar, dacă semnalul de control nu este afirmat, multiplexorul selectează* înregistrarea numărului de intrare Alimentarea externă a impulsurilor de ceas către elementele de memorie poate cauza probleme de sincronizare Numele semnalului Deistam când semnalul nu este setat Acțiune când semnalul este setat AegDsl Numărul de registru de destinație pentru registrul de scriere, provine din câmpul L (biți ) Numărul de registru de destinație pentru registrul de scriere provine de la rd | rangurile : ) RegWnte Nu Registrul specificat la intrarea -Registrul de scris- este scris la valoarea din intrarea -Date de scris- ALUSrc Al doilea operand ALU provine din a doua ieșire a fișierului de registru ('Data Read -) Al doilea operand ALU este cei biți inferiori ai instrucțiunii semnate PCSrc Valoarea PC este înlocuită cu valoarea de la ieșirea sumătorului care calculează valoarea PC • Valoarea PC este înlocuită cu valoarea de la ieșirea sumatorului care calculează adresa țintă a saltului condiționat MemRead Nu Ieșirea -Read data- primește conținutul blocului "Data memory - corespunzător valorii de la intrare -Address" MenWrte no Conținutul blocului „Memorie de date - corespunzătoare valorii de la intrare -Adresă” este înlocuit cu valoarea specificată la intrare •Date în curs de scriere- Registrul de introducere a valorii MemtoReg >»o intrare • Date scrise-, preluate din registrul de intrare a valorii ALU d Mkt- Wrtte Branch ALUOp ALUOpO RegDst ALUSrc Format R lw SW X X beq XQX Rms Setarea semnalului* pe liniile de control este complet determinată de câmpurile opcode ale instrucțiunilor Primul rând al tabelului se referă la instrucțiuni în format R (add sub AND OR și slt) Pentru toate aceste instrucțiuni, câmpurile registrului sursă sunt rs și rt iar câmpul de registru de destinație este rd aceasta definește semnalele ALUSrc și RegDst În plus, instrucțiunea de tip H scrie în registrul IRcgWrite ■ ) dar nu accesează memoria celor care sunt citite sau scrise condiții este înlocuită cu valoarea PC ♦ ; În caz contrar, valoarea pc este înlocuită cu adresa țintă a saltului condiționat dacă semnalul este zero, ALU este de asemenea mare Valoarea câmpului ASHO pentru instrucțiunile de tip R este setată la pentru a fi afișată că semnalul de control ALU trebuie generat din câmpul lunci Al doilea și al treilea rând din acest tabel arată semnalele de control pentru instrucțiunile lw și sw Valorile semnalelor ALUSrc și ALUOp oferă calcularea adresei Valorile MemRead și semnalele MemWnte oferă acces la memorie În cele din urmă, semnalele RegDst și RegWrlte sunt afirmate să se încarce, determinând ca rezultatul să fie stocat în registrul rt Instrucțiunea de ramificare condiționată este similară cu operația R-format deoarece trimite către ALU valoarea registrelor specificate în câmpurile rs și rt Semnalul ALUOp oferă un salt condiționat la scădere (semnal de control ALU ■ ), care este utilizat pentru testarea egalității că semnalul MemtoReg este ignorat atunci când valoarea semnalului RegWrite este : deoarece registrul este scris în registru, valoarea datelor din portul de scriere a registrului nu este utilizată Astfel, intrarea pentru MemtoReg din ultimele două rânduri ale tabelului conține un semn X, care indică faptul că valoarea este indiferentă Același semn poate fi aplicat semnalului RegDst atunci când valoarea RegWrrte este Acest tip de indiferență ar trebui adăugată de dezvoltator, deoarece depinde de cunoașterea complexității operației bloc Figura prezintă blocul de operare la executarea unei instrucțiuni de tip R, cum ar fi ado stl St St Deși totul se întâmplă într-un singur ciclu de ceas, putem vorbi despre patru pași în execuția unei instrucțiuni; acești pași sunt construiti pe fluxul de informații Extragerea instrucțiunii și creșterea valorii contorului de programe (PC) Citirea din registrul de fișiere a valorilor St și St , în timpul executării acestui pas, în plus, unitatea principală de control calculează valorile setate pe liniile de control Lucrând ALU cu datele citite din fișierul de registru, folosind codul funcției (biți : , câmpul tunet al instrucțiunii) pentru a genera funcția ALU Scrieți rezultatul primit de la ALU la fișierul de registru folosind biții : ai instrucțiunii de selectare a registrului de destinație (Stl) În mod similar, putem ilustra execuția instrucțiunii de încărcare a cuvântului: lw Stl compensare ($t ) O schemă simplă de implementare -o figura prezinta blocurile functionale implicate si liniile de control cu semnale setate pentru incarcare O instrucțiune de încărcare poate fi văzută ca fiind executată în cinci pași (la fel ca o instrucțiune de tip R este văzută ca fiind executată în patru pași): Preluați instrucțiunea și creșteți valoarea contorului de programe (PC) Citirea din registrul de fișiere a valorii registrului (I ) Calcul ALU al sumei valorii citite din fișierul de registru și a celor biți inferiori ai instrucțiunii (mixare) care au suferit extinderea semnelor A Utilizați suma primită de la ALU ca adresă pentru datele de memorie > Scrieți în fișierul registrului de date din blocul de memorie; registrul de destinație (Stl> este specificat de biții instrucțiunii Orez Bloc de operare și lucru atunci când executați instrucțiuni de tip R, cum ar fi adăugați Stl, St , St Figura evidențiază liniile de control active, părțile unității de operare și conexiunile Capitolul Procesor Orez Blocul operațional care execută instrucțiunea de încărcare Sunt evidențiate liniile de control implicate, blocurile și conexiunile Instrucțiunea de salvare este executată într-un mod foarte asemănător diferența principală este că că liniile de control ale memoriei sunt afișate pentru scriere și nu pentru citire, a doua valoare a registrului citit este utilizată pentru datele salvate și nu va fi efectuată nicio operațiune pentru a scrie datele de memorie în fișierul de registru Și în sfârșit, în aceeași ordine de idei, putem arăta funcționarea instrucțiunii condiționale branch-on-equal, de forma bec $tl St a stabilit Este foarte asemănător cu executarea unei instrucțiuni în format R, dar rezultatul ALU este folosit pentru a determina dacă contorul de program (PC) ar trebui să fie scris pe PC * sau adresa țintă a ramului condiționat ar trebui să fie scrisă Figura prezintă patru pași de execuție: Extragerea instrucțiunii și creșterea valorii contorului de programe (PC) Citirea din fișierul de registre a valorilor a două registre II si $t Execuția ALU a scăderii valorilor datelor citite din fișierul de registru Adăugarea valorii PC + la cei biți mai puțin semnificativi ai instrucțiunii (offset) care au suferit extinderea semnului, deplasați la stânga cu un bit; obținerea ca rezultat adresa țintă a saltului condiționat Folosind rezultatul de la ieșirea Zero (Zero) a ALU pentru a decide ce rezultat de sumător ar trebui să fie stocat în computer Diagrama simplă de implementare Figura Un bloc operațional care execută o instrucțiune laercode condiționată privind egalitatea Liniile de control implicate, blocurile și conexiunile evidențiate După utilizarea fișierului de registru și ALU pentru a efectua comparația, ieșirea Zero este utilizată pentru a selecta următoarea valoare a contorului programului dintre cele două opțiuni posibile Finalizarea dezvoltării sistemului de control După o revizuire pas cu pas a funcționării instrucțiunilor, vom continua implementarea sistemului de control Funcția de control poate fi determinată exact folosind conținutul tabelului prezentat în fig Semnalele de ieșire sunt setate pe linia de control, iar câmpul de biți jXOde, p[ ] este utilizat la intrare În acest fel, putem crea un tabel de adevăr pentru fiecare ieșire pe baza codificării binare a câmpurilor opcode Pe fig Figura arată logica utilizată în blocul de control ca un tabel mare de adevăr care combină toate ieșirile și folosește biții codului operațional ca intrări Acesta definește complet funcția de control, și îl putem implementa direct pe elemente logice care funcționează în mod automat Acum că avem o implementare care utilizează un ciclu pentru un set de majoritatea instrucțiunilor de bază MIPS, să adăugăm instrucțiunea Implementare cu un singur ciclu Denumită și implementare cu un singur ciclu de ceas la care instrucţiunea este executată într-un ciclu de ceas Capitolul Procesor săriți necondiționat pentru a arăta cum blocul de operare principal și blocul de control pot fi extinse pentru a gestiona alte instrucțiuni din set Intrare sau ieșire Nume semnal R-format Iw beq Intrări Op Sau ORZ Sau op) ORO Ieșiri ReqOst XX ALUSic MemtoReg XX RayWnte Mem Read Mem Wnte Filiala ALU Op ALUOPO Orez B Tabelul de adevăr definește complet funcția de control pentru o implementare simplă folosind un singur ciclu de ceas Jumătatea superioară a tabelului prezintă combinații de semnale de intrare corespunzătoare celor patru valori ale câmpului opcode câte un semn în fiecare coloană care definește semnalele de control de ieșire (Rețineți că p( ] corespunde biților ai instrucțiunii care alcătuiesc câmpul op ) În partea de jos a tabelului sunt semnalele de ieșire pentru fiecare dintre cele patru opcodes la ieșire, AegWnte este setat pentru două combinații diferite de semnale de intrare Dacă luăm în considerare doar cele patru valori ale câmpului opcode afișate în acest tabel, atunci putem simplifica tabelul de adevăr folosind elemente indiferente în costumul său de intrare De exemplu, o instrucțiune în format R poate fi definită folosind expresia (NOT op ) AND (NOT op ), deoarece aceasta este suficientă * pentru a distinge instrucțiunile în formă B de instrucțiunile Tw, sw și bec Dar nu vom folosi această simplificare, deoarece toate celelalte valori opcode MIPS sunt utilizate în implementarea completă Exercitiul Implementarea sarituri neconditionate Pe platformă Figura - arată implementarea multor instrucțiuni discutate în Capitolul Dar lipsește o clasă de instrucțiuni, instrucțiunea de ramificare necondiționată Extindeți blocul de operare și blocul de control prezentat în Figura - pentru a include instrucțiunea de ramificare necondiționată Descrieți cum pentru a seta un semnal pe orice linie de control Schemă simplă de implementare Zivvy Distrugerea unui salt neconditionat (salt), prezentat in fig , oarecum similar cu „instrucțiunea de ramificare condiționată, dar cu un calcul diferit al valorii țintă a PC-ului și fără cuvânt” Următorii de biți inferiori ai acestei adrese de de biți sunt preluați din solul de de biți a valorii imediate a instrucțiunii Cei biți superiori ai adresei care ar trebui să impute valoarea PC-ului sunt obținute prin adăugarea de la vechea valoare a PC-ului, indicând i o instrucțiune de salt necondiționat Astfel, se poate implementa un salt neconditionat păstrând în PC lanțul de ♦ cei mai semnificativi biți ai valorii executabile a PC-ului ♦ (aceștia sunt biții ai adresei instrucțiunii imediat următoare) ♦ Câmp de valoare imediată de de biți al instrucțiunii de ramificare necondiționată, ♦ cifre (X) Figura prezintă adăugarea unei structuri de control pentru o ramură necondiționată ■ a designului prezentat în Figura - Multiplexorul suplimentar selectează sursa pentru noua valoare PC care va fi fie valoarea incrementală a PC (PC ♦ ), fie adresa țintă a unui salt condiționat, fie adresa țintă a unui salt necondiționat Un multiplexor suplimentar necesită încă un semnal de control suplimentar Acest semnal de control (Jmp) este afirmat numai când este executată o instrucțiune de salt necondiționat (J Jnp) adică atunci când valoarea câmpului eră este ambele egale cu Papă Poziții de rang abordare : Orez Format de instrucțiuni pentru o ramură necondiționată (opcode • ) Adresa de destinație pentru o instrucțiune de ramificare necondiționată este formată prin concatenarea celor biți superiori ai valorii curente a PC - cu câmpul de adresă de de biți (adresa) al instrucțiunii de ramificare necondiționată și adăugând ca cei doi biți cei mai puțin semnificativi De ce o implementare care utilizează un singur ciclu de ceas nu este utilizată în prezent? Pentru toată funcționalitatea unei implementări care utilizează un singur ciclu de ceas, din cauza ineficienței sale, aceasta nu va fi folosită în design-urile moderne Pentru a vedea de ce este așa, rețineți că ciclul de ceas trebuie să aibă aceeași durată pentru fiecare instrucțiune din acest construct cu un singur ciclu Desigur, ciclul de ceas este determinat de cea mai mare cale de date posibilă din procesor Această cale aproape sigur se referă la o instrucțiune de încărcare care utilizează cinci blocuri funcționale în următoarea secvență: memorie de instrucțiuni, fișier de registru, ALU, memorie de date și fișier de registru Deși CP! este (vezi capitolul ), performanța generală a unei implementări care utilizează un singur ciclu este probabil să fie slabă, deoarece ciclul de ceas va fi prea lung Capitolul Procesor Rms Blocuri de control simple și primul bloc extins pentru a executa o instrucțiune de ramură necondiționată Un multiplexor suplimentar (dreapta sus) este utilizat pentru a selecta între adresa de destinație a ramurii necondiționate și fie adresa de destinație a ramurii condiționate, fie adresa instrucțiunii imediat următoare instrucțiunii curente Acest multiplexor este controlat de semnalul de salt biți la stânga, ceea ce duce de fapt la adăugarea a la biții mai puțin semnificativi și apoi la combinarea celor mai semnificativi biți ai PC ♦ ca biți cei mai semnificativi, ceea ce adaugă până la o adresă de de biți Costul utilizării designului cu o singură buclă cu lungime fixă este semnificativ, dar poate fi considerat acceptabil pentru un set mic de instrucțiuni Din punct de vedere istoric, această tehnică de implementare a fost folosită în primele computere cu seturi de instrucțiuni foarte simple Dar dacă încercăm să implementăm un bloc aritmetic în virgulă mobilă sau un set de instrucțiuni mai complexe, atunci nu vom realiza o muncă eficientă din construirea unei singure bucle Deoarece trebuie să presupunem că ciclul de ceas este egal cu durata celei mai lungi întârzieri în execuția tuturor instrucțiunilor, este inutil să încercăm să folosiți tehnici de implementare care reduc întârzierea în cazuri generale, dar nu îmbunătățesc ceasul din cel mai rău caz ciclu Privire de ansamblu asupra conductelor Astfel, implementarea unui singur ciclu de ceas încalcă un principiu cheie de proiectare din capitolul , care afirmă că sarcinile care apar frecvent ar trebui să ruleze mai rapid În secțiunea următoare, ne vom uita la o altă tehnică de implementare, pipelined, care utilizează un bloc operațional la fel ca blocul operațional cu o singură buclă, dar mult mai eficientă datorită debitului său ridicat Canalizarea îmbunătățește eficiența prin executarea mai multor instrucțiuni în același timp Autotestare Uitați-vă la semnalele de control prezentate în fig Este posibil să combinați unele dintre ele? Unele ieșiri ale semnalului de control pot fi înlocuite cu inversul altor semnale? (Sugestie: acordați atenție stărilor indiferente ) Dacă da atunci este posibil să folosiți un semnal în loc de altul fără a adăuga un invertor? Prezentare generală a conductelor Nu pierde niciodată timpul zicala americană Pipeliningul este o tehnică de implementare în care mai multe instrucțiuni sunt executate în același timp Conducta a devenit aproape omniprezentă în aceste zile Această secțiune se bazează în mare măsură pe analogie pentru a oferi o privire de ansamblu asupra conceptelor și problemelor de pipeline Dacă sunteți interesat doar de ideea generală, puteți doar să acordați atenție acestei secțiuni și să omiteți secțiunile și reprezentând o tehnologie avansată de pipelining folosită la procesoarele recente precum AMD Opteron X (Barcelona) sau Intel Core Dacă sunteți interesat de elementele interne ale unui computer care utilizează o conductă, atunci această secțiune este o bună introducere în Secțiunile Oricine a făcut vreodată o spălare mare a folosit fără să vrea conducte Fără aceasta, abordarea spălării rufelor ar fi: Încărcați mașina de spălat cu o încărcătură de rufe Când mașina de spălat a terminat de spălat, puneți rufele umede în uscător Când uscătorul este terminat, puneți rufele uscate pe masă și pliați-le Când rufele sunt pliate, cereți pe cineva din locul de conviețuire să le ia Când lenjeria este luată, repetați toate acestea cu un nou lot de lenjerie Coneyerizare Tehnologia de implementare, în care execuția instrucțiunilor nedeformate are loc simultan, în multe privințe asemănătoare cu o linie de asamblare Capitolul Procesor Abordarea pipeline, așa cum se arată în Fig durează mult mai puțin timp Odată ce mașina de spălat a terminat de spălat primul lot de rufe și a fost introdus în uscător, veți încărca mașina de spălat cu al doilea lot de rufe Când primul lot este uscat, îl întindeți pe masă pentru a începe să pliați mutați un lot de rufe umede în uscător și încărcați un nou lot de rufe în mașina de spălat Apoi, vei avea pe cineva care locuiește în aceeași gospodărie să ia primul lot de rufe și să procedezi la plierea celui de-al doilea lot, al treilea lot va fi încărcat în uscător, iar al patrulea lot va fi încărcat în mașina de spălat Până în acest moment, toți pașii — numiți etape în pipeline — se vor executa în paralel Deoarece există resurse separate pentru fiecare etapă, sarcinile pot fi puse în practică Paradoxul conductei este că timpul de la introducerea unui șosetă în mașina de spălat până la uscare, pliere și mutare în alt loc nu este redus prin conducte, motivul pentru care conductele economisesc v|n pentru multe încărcări este că totul rulează în paralel, astfel încât mai multe loturi sunt finalizate într-o oră Transportarea îmbunătățește debitul de rufe Prin urmare, canalizarea nu va reduce timpul necesar pentru a finaliza o singură încărcătură de rufe, dar dacă există multe încărcări de rufe, creșterea debitului reduce timpul general de rulare Dacă toate etapele durează aproximativ aceeași perioadă de timp și există o cantitate suficient de mare de muncă, atunci accelerarea obținută din cauza conductei este echivalentă cu numărul de etape din conductă, în acest caz numărul este de patru: spălare, uscare, pliere și transferare la depozitare Acest lucru face ca o spălătorie cu conducte să fie de patru ori mai rapidă decât una fără conducte: de încărcări vor dura de cinci ori mai mult decât una, în timp ce de încărcări într-o spălătorie secvenţială vor dura de de ori mai mult decât una Pe fig timpul este redus de numai de ori, deoarece sunt afișate doar patru descărcări Rețineți că la începutul și la sfârșitul versiunii pipeline prezentate în Figura , transportorul nu are sarcină completă; acest început și prăbușire a lucrului are un impact asupra performanței dacă numărul de sarcini este mic în comparație cu numărul de etape în curs Dacă numărul de descărcări este mult mai mare de patru, atunci etapele vor fi completate de cele mai multe ori, iar debitul va crește de ori Principii similare se aplică procesoarelor care execută instrucțiuni într-o conductă În versiunea clasică, execuția instrucțiunilor MIPS durează cinci pași: Preluarea unei instrucțiuni din memorie Citirea registrelor în procesul de decodare a instrucțiunilor Formatul constant al instrucțiunilor MIPS permite citirea și decodarea simultană Efectuarea unei operații sau calcularea unei adrese Acces la un operand din memoria de date Scrierea rezultatului în registru Prezentare generală a conductelor Orez Analogie pipeline pe exemplul unei spălătorii Ann, Brian Cathy și Don au stocat rufe pentru a le spăla, usca, pliază și transferă în dulap Pentru această sarcină, fiecare etapă de spălare, uscare, pliere și transfer la depozitare durează de minute Robotul de spălătorie secvenţial va dura ore pentru încărcări, iar transportul - , ore Am arătat etapa conductei pentru diferite rute afișând copii a patru resurse pe o cronologie bidimensională, dar de fapt avem doar o instanță a fiecărei resurse Prin urmare, conducta MIPS explorată în acest capitol are cinci etape Următorul exercițiu arată că pipelining-ul accelerează execuția instrucțiunii, similar cu felul în care accelerează rufele Exercitiul Comparația performanței implementării Odiociclului și a conductelor Pentru a consolida discuția, să creăm o conductă În acest exercițiu și în restul acestui capitol, ne vom limita atenția la cele opt instrucțiuni de cuvinte de încărcare (>") stocare cuvânt (sw)) adunări (adunări („Și”, scăderi (scădere (sub)), operații ȘI (ȘI (și)), operații SAU (SAU (sau)), operațiuni de instalare dacă sunt mai mici decât (setat mai puțin decât (slt)) și operațiuni condiționate ramură prin egalitate (ramură op equal (Oeq)) Comparați timpul mediu de execuție al instrucțiunilor pentru implementarea ciclului complet în care execuția fiecărei instrucțiuni durează un ciclu de ceas, iar într-o implementare pipeline, timpul de lucru pentru principalele blocuri funcționale din acest exercițiu este de picoseconde (ps) pentru accesul la memorie ps pentru funcționarea ALU și ps pentru citirea sau scrierea fișierului registru Capitolul Procesor durează exact un ciclu de ceas, așa că ciclul de ceas trebuie extins pentru a se adapta la cea mai lentă instrucțiune Răspuns Tabelul - arată timpul necesar pentru a executa fiecare dintre cele opt instrucțiuni Un proiect cu un singur ciclu trebuie să permită executarea celei mai lente instrucțiuni - în tabel este instrucțiunea II, deci timpul necesar executării fiecărei instrucțiuni este de ps Prin analogie cu imaginea prezentată în Figura - , Figura - compară execuția non-pipeline și pipelined a instrucțiunilor cu trei cuvinte de încărcare Conform acestei comparații, timpul dintre prima și a patra instrucțiune * a designului fără conducte este de până la ps sau ps Toate oțelurile transportoare au un singur ciclu de ceas, astfel încât ciclul de ceas trebuie să fie suficient de lung pentru a permite cea mai lentă operațiune La fel cum un design cu o singură cursă trebuie să fie egală cu durata ciclului de ceas egală cu timpul de execuție al celei mai lente operațiuni ( ps) deși unele instrucțiuni se pot executa mai repede, până la ps, în execuția pipeline ciclul de ceas ar trebui să aibă un timp de funcționare cel mai lent de ps, deși unele etape rulează în ps I! totuși pipelining oferă o creștere de patru ori a performanței; timpul dintre prima și a patra instrucțiune este de * ps sau ps Tabelul Timpul total petrecut pentru execuția fiecărei instrucțiuni este calculat din timpul petrecut pe fiecare dintre componentele acesteia Acest calcul presupune că multiplexoarele, blocurile de control al accesului la PC și distribuitoarele de caractere nu creează întârzieri Clasa de instrucțiuni Instrument de recuperare* Citire registru Operare ALU Citibil și date Scriere registru ■ o • Cuvânt de încărcare - Cuvânt de încărcare ()w) ps ps ps ps ps ps Stocare cuvânt (sw) ps ps ps ps ps în formă de R! (adunare - adunare, scădere -■ siib operație AND - AND OR operație - SAU, operațiune setată dacă este mai mică de - $ ) ps ps ps ps ps Ramura condiționată - VgapsL (oeq) ps PS ps cp Discuția de mai sus despre accelerarea lucrărilor prin utilizarea unei conducte poate fi transformată într-o formulă Dacă etapele sunt perfect echilibrate, atunci timpul dintre instrucțiuni într-un procesor cu o conductă - atunci când se creează condiții ideale - este egal cu: Prezentare generală a conductelor Timp între instrucțiuni, ionism Timp între instrucțiuni — cu kpivshpkіm Numărul de trepte transportoare În condiții ideale și un număr mare de instrucțiuni, accelerarea datorată іanveyeri іаcin este aproximativ egală cu numărul de etape de conductă; o linie de transport cu cinci trepte rulează de aproximativ cinci ori mai repede Formula sugerează că o conductă cu cinci etape ar trebui să ofere o îmbunătățire de aproape cinci ori peste ps sau să stabilească o viteză a ciclului de ceas de ps Dar exercițiul arată că etapele ar putea să nu fie perfect echilibrate În plus, conductele nu sunt lipsite de anumite cheltuieli generale, a căror sursă va fi discutată în scurt timp Astfel, timpul petrecut în medie pe instrucțiune va depăși minimul posibil, iar accelerarea va fi mai mică decât numărul de etape de conductă ORDIN aypopne Timp - g ' ' - ' g ■ I ■ I t - Comanda g* aylone Time TOP program (și inversiuni) iw $î, îo«$o) lw , USD CMS ) lw S ($ ) nc nc nc nc nc nc nc Pwc Execuția într-un singur ciclu și conservată, efectuată în partea sa mică, este comparată cu execuția conservată, prezentată în partea de jos Sunt utilizate aceleași componente ale echipamentelor al căror timp de funcționare este prezentat în Tabelul În acest caz, există o accelerare de patru ori în timpul mediu între instrucțiuni de la ps la ps Comparați această cifră cu fig În cazul spălătoriei, ne-am asumat că toate etapele sunt egale ca durată Dacă uscarea ar fi mai lentă decât orice altceva, atunci ar seta durata etapei Durata etapei conductei computerului este, de asemenea, limitată de timpul de rulare a celei mai lente resurse - fie o operație ALU, fie un acces la memorie Presupunem că scrierea la fișierul registru are loc în prima jumătate a ciclului de ceas, iar citirea din fișierul registru are loc în a doua jumătate a acestuia Această ipoteză va fi folosită pe tot parcursul acestui capitol Capitolul Procesor În plus, nici măcar afirmația unei îmbunătățiri de patru ori a performanței pentru exercițiul nostru ns nu se reflectă în timpul total de execuție pentru cele trei instrucțiuni: este de ps față de ps Desigur, motivul constă în numărul mic de instrucțiuni Ce se întâmplă dacă măriți numărul de instrucțiuni? Putem extinde cifrele anterioare la de instrucțiuni În exercițiul pipeline, am adăuga de instrucțiuni; fiecare instrucțiune va adăuga ps la timpul total de execuție Timpul total de execuție va fi de x ps * ps, sau ps Fără pipeline, ar trebui adăugate de instrucțiuni, fiecare luând ps pentru a fi finalizată, astfel încât timpul total de execuție ar fi de x ps + ps sau ps În astfel de condiții, raportul dintre indicatorii de timp total de execuție pentru programele reale pe procesoare fără o conductă și cu o conductă se apropie de raportul de timp dintre instrucțiuni: ns ps — — W ps ps Canalizarea îmbunătățește performanța prin creșterea debitului de instrucțiuni, spre deosebire de reducerea timpului de execuție a instrucțiunilor individuale, dar debitul de instrucțiuni este important deoarece milioane de instrucțiuni sunt executate într-un program real Proiectarea unui set de instrucțiuni pentru execuția conductei Chiar și cu această explicație simplă a conductei, putem pătrunde în construcția setului de instrucțiuni MIPS, care a fost conceput pentru a fi executat folosind o conductă În primul rând, toate instrucțiunile MIPS au aceeași lungime Această limitare simplifică foarte mult extragerea instrucțiunilor în prima etapă a conductei și decodificarea lor în a doua etapă În seturile de instrucțiuni precum x , unde lungimea instrucțiunii variază de la la octeți, pipelining-ul este mult mai dificil Instrucțiuni x non-reale (vezi secțiunea ) În al doilea rând, MIPS utilizează un număr mic de formate în care câmpurile registrelor sursă din fiecare instrucțiune sunt în același loc Această proporționalitate înseamnă că a doua etapă poate începe prin a citi fișierul de înregistrare în același timp în care hardware-ul determină tipul de instrucțiune preluat Dacă formatele de instrucțiuni MIPS nu ar fi proporționale, etapa ar trebui împărțită, rezultând șase etape pipeline Prezentare generală a conductelor În al treilea rând operanzii din memorie apar numai în M PS în timpul ■încărcărilor sau stocărilor Această limitare înseamnă că putem folosi ■ o etapă interesantă pentru calcularea unei adrese de memorie cu acces la memorie ■ următoarea etapă Dacă am putea lucra cu operanzi în memorie, ca în x , atunci și ar trebui extinse într-o etapă de adresă, o etapă de memorie și o etapă executabilă În al patrulea rând, așa cum sa discutat în capitolul , operanzii trebuie aliniați în perechi Prin urmare trebuie să avem grijă de o instrucțiune separată de transfer secret care necesită două accesări la memorie; datele solicitate pot fi experimentate între procesor și memorie într-o etapă a conductei Conflicte asociate cu funcționarea transportorului Pipelinerea creează situații în care instrucțiunea următoare nu poate fi executată în următorul ciclu de ceas Astfel de situații se numesc conflicte și sunt împărțite în trei tipuri diferite Conflicte structurale Primul dintre aceste tipuri se numește conflict structural Înseamnă că hardware-ul nu poate transporta combinația de instrucțiuni pe care dorim să le executăm în același ciclu de ceas Conflictul structural în spălătorie va apărea dacă se folosește o combinație de spălare-uscare în loc de spălare și uscare separată sau dacă rezidenții cu noi sunt ocupați cu altceva și nu transferă rufele la locul de depozitare planurile pentru transportor vor fi încălcate După cum sa discutat mai devreme, setul de instrucțiuni MIPS a fost proiectat ținând cont de pipeline, făcând mult mai ușor pentru dezvoltatori să evite conflictele structurale atunci când proiectează o conductă Cu toate acestea, să presupunem că folosim un singur bloc în loc de două blocuri de memorie Dacă conducta prezentată în Figura primește patru instrucțiuni, vom vedea că în același ciclu de ceas, prima instrucțiune accesează datele din memorie, în timp ce a patra instrucțiune preia o instrucțiune din aceeași memorie Fără două blocuri de memorie, conducta noastră se poate confrunta conflict structural Conflicte de date Conflictele de date apar atunci când conducta poate fi oprită, deoarece un pas trebuie să aștepte ca altul să se termine Să presupunem că găsiți o împletitură pe masa de rufe fără o pereche potrivită Conflict structural O situație în care o instrucțiune programată nu poate fi executată într-un ciclu de ceas adecvat, deoarece hardware-ul nu acceptă combinația de instrucțiuni destinate a fi executate Conflict de date Denumită și o dispută de date pipeline O situație în care o instrucțiune programată nu poate fi executată în ciclul de ceas dorit, deoarece datele de care are nevoie nu sunt încă disponibile Capitolul Procesor cupluri Este destul de evident că în timpul acestei căutări lotul de rufe va fi uscat și gata de pliat iar porția care va fi spălată și gata de uscat va trebui să stea la coadă Într-o conductă de computer, apare un conflict de date din cauza unei dependențe de o instrucțiune anterioară care este încă în curs (această relație nu are loc niciodată în timpul unei spălări) De exemplu, să presupunem că avem o instrucțiune de adunare, MO, urmată imediat de o instrucțiune de scădere, sub care foloseste suma (IO): aod dar $to Stl sub H IsO $t Fără intervenție, conflictul de date ar fi putut opri conducta destul de repede Instrucțiunea de adăugare nu își scrie rezultatul până la a cincea etapă, ceea ce înseamnă că vom pierde trei cicluri de ceas în conductă Deși ne putem baza pe compilatoare pentru a elimina toate astfel de conflicte, rezultatele pot fi nesatisfăcătoare Aceste dependențe se întâmplă destul de des, iar întârzierea este prea mare pentru a ne aștepta ca compilatorul să ne salveze de dilema malefică Soluția principală se bazează pe observația că nu trebuie să așteptăm ca instrucțiunea să termine execuția înainte de a încerca să rezolvăm problema conflictului de date Pentru secvența de program de mai sus, odată ce AJJY a dat suma pentru instrucțiunea de adunare, o putem furniza ca intrare pentru instrucțiunea de scădere Adăugarea de hardware suplimentar pentru a extrage elementul lipsă într-un stadiu incipient din resursele interne se numește redirecționare a datelor sau ocolire Exercitiul Redirecționarea datelor la executarea a două instrucțiuni Arătați pentru cele două instrucțiuni anterioare ce etape ale conductei vor fi conectate prin transmiterea datelor Utilizați imaginea din fig Figura pentru a reprezenta calea datelor în timpul execuției celor cinci etape ale operațiunii conductei Construiți o copie a căii de date pentru fiecare instrucțiune, urmând modelul conductei de spălătorie prezentat în Figura - Răspuns Pe fig Figura prezintă conexiunea pentru trecerea valorii în *s după etapa de execuție a instrucțiunii de adăugare ca intrare la etapa de execuție a sub-instrucțiunii În această reprezentare grafică a evenimentelor, calea datelor are sens doar dacă etapa de recepție are loc mai târziu Redirecționarea datelor Denumită și ocolire O metodă de rezolvare a conflictelor de date prin extragerea elementului de date lipsă din bufferele interne în loc să aștepte să sosească din re-tis'roe vizibile programatic sau acolo i-and oțel sursă De exemplu, poate să nu existe o modalitate acceptabilă de a trece date de la ieșirea etapei de acces la memorie a execuției primei instrucțiuni la intrarea etapei de execuție a următoarei instrucțiuni, deoarece aceasta ar însemna întoarcerea în timp Prezentare generală a conductelor L "s O reprezentare grafică a conductei de instrucțiuni, care poate fi redată similar cu conducta de spălătorie prezentată în Figura Aici folosim simboluri reprezentând resurse fizice, cu abrevieri pentru etapele de lucru ale lui Mweyer utilizat pe parcursul acestui capitol Pentru cele cinci etape, se utilizează următoarea notație IF pentru etapa de preluare a instrucțiunii (dreptunghi reprezentând memoria instrucțiunilor); ID pentru etapa de decodare a instrucțiunii - citirea fișierului de registru (afișează fișierul de registru în curs de citire) EX pentru etapa executivă (afișează ALU) MEM pentru etapa de acces la memorie (dreptunghiul arată memoria de date); și WH pentru etapa de writeback, arată fișierul de registru în desfășurare) Umbrirea gri indică elementul utilizat de instrucțiune Blocul MEM nu este umbrit deoarece adăugarea nu folosește un acces de memorie dain" Umplerea jumătății drepte a fișierului de registru sau a memoriei bloc înseamnă că o citire este în desfășurare la acest element de etapă, iar completarea jumătății din stânga înseamnă că în această etapă se scrie elementul e Prin urmare, jumătatea dreaptă a lui Yu din a doua etapă este pictată peste, deoarece fișierul de registru este în curs de citire, iar la a cincea etapă, jumătatea stângă a WB este pictată deoarece fișierul de registru este scris Orez Reprezentarea grafică a transmiterii datelor Link-ul arată calea datelor de la ieșirea etapei EX la executarea instrucțiunii aod la intrarea etapei EX pentru subinstrucțiune prin modificarea valorii registrului SsO citit în a doua etapă de execuție a sub-instrucțiunii Redirecționarea datelor funcționează foarte bine și este tratată în detaliu în Secțiunea Cu toate acestea, nu poate preveni toate încetinirile conductelor Să presupunem, de exemplu, că prima instrucțiune nu a fost o adăugare, ci o încărcare a registrului IO După cum vă puteți imagina, uitându-vă la fig , secretele cerute vor fi disponibile numai după a patra etapă de execuție a primei instrucțiuni, creând o dependență, și în virtutea căreia intrarea în cea de-a treia etapă de execuție a sub-instrucțiunii va fi întârziată Prin urmare, chiar și atunci când datele sunt transmise, una dintre etape va fi întârziată din cauza conflictului de încărcare a datelor-utilizare, așa cum se arată în Figura - Această figură ilustrează un concept important privind conducta, care se numește oficial încetinirea conductei (uneori numită bula) Vom vedea încetiniri în altă parte în curs Secțiunea arată cum se poate face față unor astfel de cazuri dificile folosind oricare Capitolul Procesor detectarea hardware și reducerea la tăcere sau software care reordonează execuția codului pentru a evita încetinirile conductei de încărcare și utilizare, așa cum arată acest exemplu cada $t $t Orez c Avem nevoie de o întârziere chiar și în timpul redirecționării datelor când instrucțiunea în format H care urmează încărcării încearcă să utilizeze datele Fără întârziere, calea de la ieșirea etapei de acces la memorie la intrarea etapei de execuție trebuie să meargă înapoi în timp, ceea ce este imposibil de făcut Secțiunea intră în detalii despre ceea ce se întâmplă de fapt în cazul unui conflict Exercitiul Rearanjarea codului pentru întârzierile conductelor Luați în considerare următorul fragment de cod în C: a - b ♦ e C - b ♦ f; Așa arată apelul MIPS generat al acestui fragment, cu condiția ca toate variabilele să fie în memorie și să poată fi accesate folosind un offset față de valoarea registrului JtO: II și tll O(ltO) w И (»t ) adauga jtj W I » It (StO) la tt (lt ) adăugați „ itl lt se ItS IfctltO) Căutați conflicte în acest fragment de cod și rearanjați instrucțiunile pentru a evita orice întârziere în conductă Răspuns Ambele instrucțiuni de adăugare sunt supuse conflictelor din cauza dependențelor lor de instrucțiunile io care le preced imediat Trebuie remarcat faptul că decuplarea acestei situații elimină o serie de alte conflicte potențiale, inclusiv dependența primei instrucțiuni a I (I ) mm din ii ig din ігіоі » — i* •■C'PMl*"' Orez Diagrama funcționării konaayarului cu imaginea unui ciclu de ceas, corespunzătoare ciclului de ceas al konaayarului, prezentată în figurile și După cum puteți vedea, figura care ilustrează un singur ciclu de ceas este o secțiune verticală a diagramei care ilustrează mai multe cicluri de ceas Autotestare Un grup de studenți discuta despre eficiența unei conducte în cinci etape când unul dintre elevi a observat că nu toate instrucțiunile erau active la fiecare etapă Unitate de operare și sistem de control echipat cu transportor ■şi transportor După ce s-a luat decizia de a ignora influența fluctuațiilor, elevii au ajuns la următoarele cinci concluzii Care dintre aceste incluziuni sunt corecte? Permițând instrucțiunilor de salt necondiționat și condiționat, precum și instrucțiunilor bazate pe ALU, să utilizeze mai puțin de cele cinci etape necesare pentru a executa o instrucțiune de încărcare, aceasta va crește performanța conductei în orice circumstanțe Încercarea de a lăsa unele instrucțiuni să utilizeze mai puține etape nu va ajuta, deoarece debitul este determinat de lungimea ciclului de ceas, numărul de etape de conductă afectează latența, nu debitul Forțați instrucțiunile folosind ALU nu este posibil să se utilizeze mai puține etape, deoarece trebuie să scrie înapoi rezultatul, dar instrucțiunile de salt condiționate și necondiționate pot folosi mai puține etape, astfel încât există loc de îmbunătățire în execuția conductei lor În loc să încercați să forțați instrucțiunile pentru a reduce numărul de etape ar trebui explorată posibilitatea extinderii conductei astfel încât instrucțiunile să utilizeze mai multe etape, dar mai scurte În acest fel, performanța poate fi îmbunătățită Sistem de control prin conducte , poate mai mult decât orice computer anterior, folosește un sistem de control ca nimeni altul James Thornton Acum, așa cum am adăugat un sistem de control la un bloc operațional cu un singur ciclu în secțiunea , să-l adăugăm la un bloc operațional canalizat Pentru început, să semnăm liniile de control pe blocul de operare existent Aceste linii sunt prezentate în Fig În acest caz, pe cât posibil, s-au folosit împrumuturi din sistemul de management al unei săli de operație simplă) prezentat în Fig În special, a fost folosită aceeași logică de control A U logica de salt condiționat, multiplexor al numărului de registru al receptorului și linii de control Definițiile acestor funcții au fost date în tabel , și în fig Informațiile cheie pentru a ajuta la urmărirea analizei ulterioare a acestei probleme sunt recaptate în Tabelul și în fig Orez Unitatea de operare cu conducte prezentată în fig , cu linii de control desemnate În acest bloc de operare, pentru sursa adresei contorului de programe (PC), numărul de registru al receptorului ALU, este împrumutată logica de control discutată în secțiunea Rețineți că acum, în stadiul EXe, vom avea nevoie de un câmp tunet pe biți (codul funcției) ca intrare de control ALU, prin urmare, acești biți trebuie să fie incluși și în registrul conductei lD/EX Amintiți-vă că acești șase biți sunt, de asemenea, cei mai puțin semnificativi șase biți ai câmpului de viteză imediată din instrucțiuni, deci ID/EX registrul conductei le poate furniza din câmpul de valoare imediată, deoarece extinderea semnului nu va schimba valoarea acestor biți Capitolul Procesor Unitate de operare și sistem de control echipat cu transportor tabelul Aceasta arată cum sunt setați biții de control ALU în funcție de biții de control ALUOp și diferite coduri de funcție pentru instrucțiunea R-tila Instrucţiune Opcode ALUOp Instrucţiune Operare Funcţie Cod ALU Set Acţiune ALU Intrare de control iw K>ad cuvânt XXXXXXX adăugare SW memorează cuvântul XXXXXX adăugare Ramura egală ramura egală (ramură condiționată la egalitate) XXXXXXX scădere IT R-tip adăugați (adăugați) adăugați R-thio scade scade R-tip AND(I) și OOOO R-thio he (sau) sau R-type setat pe mai puțin de setat dacă mai puțin de Ca și în cazul implementării unui singur ciclu, presupunem că contorul de programe (PC) este scris în fiecare ciclu de ceas, deci nu există un semnal de scriere separat pentru PC Din același motiv, nu există semnale de scriere separate pentru registrele conductei (IF/ID, ID/EX, EX/MEM și MEM/WB), deoarece aceste registre sunt de asemenea scrise în timpul fiecărei postări de ceas Pentru a defini semnalele de control pentru o conductă, trebuie doar să le setăm valorile în fiecare etapă a conductei Deoarece fiecare linie de control este asociată cu o componentă care este activă într-o singură etapă a conductei, liniile de control pot fi împărțite în cinci grupuri corespunzătoare etapelor conductei ! Extrageți instrucțiuni, semnale de control pentru a citi memoria de instrucțiuni și pentru a scrierile pe PC sunt întotdeauna setate, astfel încât această etapă a conductei nu necesită nici un management specific Decodificarea instrucțiunilor și citirea din fișierul de registru: ca și în etapa anterioară, aceleași evenimente apar în fiecare ciclu de ceas, deci nu este necesară instalarea de linii de control suplimentare Execuția sau calculul adresei trebuie setate la semnalele RegDst, ALUOp și ALUSrc (vezi tabelele și ) Semnalele conduc la alegerea registrului de recepție, la funcționarea ALU și la datele trimise la a doua intrare a ALU: fie date de la ieșirea Read Data , fie valori directe ale instrucțiunii care a suferit extinderea semnelor Acces la memorie Semnalele setate în această etapă pe liniile de control sunt Branch, MemRead și MemWrite Aceste semnale sunt expuse Capitolul Procesor sunt respectiv ramificate prin ramuri egale de instructiuni încărcare (încărcare) și salvare (magazin) Trebuie reamintit că semnalul PCSrc din tabel are ca rezultat selectarea următoarei adrese în ordine, cu excepția cazului în care semnalul Branch este afirmat și rezultatul returnat de ALU a fost zero Scrie înapoi Semnalul MemtoReg este afirmat permițând luarea unei decizii trimite la fișierul registru rezultatul dat de ALU, sau valoarea din memorie, și RegWnte, permițând scrierea valorii selectate Tabelul Copie a tabelului Funcția fiecăruia dintre cele șapte semnale de control este definită aici Liniile de control ALU (ALUOp) sunt definite în a doua coloană a tabelului Când un semnal de control al multiplexorului de bit și intrări este afirmat, multiplexorul selectează intrarea corespunzătoare uneia În caz contrar, dacă semnalul de control nu este afirmat, multiplexorul selectează intrarea zero Rețineți că PCSrc din Figura este controlat de o poartă AND Dacă sunt afirmate atât Branch cât și ALU Zero, semnalul PCSrc este ; în caz contrar, are valoarea Sistemul de control afirmă semnalul Branch numai când este executată instrucțiunea beq, în caz contrar semnalul PCSrc are valoarea Acțiune setată nume de semnal ( ) Acțiuni la setarea RegDsi Numărul de registru de destinație pentru registrul care se scrie, provine din câmpul P (biții - ) Numărul de registru de destinație pentru registrul de scris, provine din câmpul al treilea (biții : ) AegWrite Nu Registrul specificat la intrarea registrului de scris este scris la valoarea de la intrarea datelor de scris ALUSrc Al doilea operand ALU provine de la a doua ieșire a fișierului de registru Al doilea operand ALU este cei biți inferiori ai noii instrucțiuni PCSrc Valoarea PC este înlocuită cu valoarea de la ieșirea sumătorului care calculează valoarea PC * Valoarea PC este înlocuită cu valoarea de la ieșirea sumatorului care calculează adresa de destinație a saltului condiționat MemRead Nu Ieșirea datelor citite primește conținutul blocului de memorie de date specificat prin setarea valorii la adresa de intrare MemWrite Nu Conținutul blocului de memorie de date specificat prin setarea valorii în intrarea Adresă se înlocuiește cu valoarea specificată în intrarea datelor de scris Mem toRețj Valoarea care intră în registru la intrarea datelor de scriere este preluată din ALU Valoarea care intră în registru la intrarea datelor de scriere este preluată din memoria de date Unitate de operare și sistem de control echipate cu transportor Execuția sau calculul adresei Acces la memorie Feedback RegDst ALUOp! ALUOpO ALUSrc Branch Mem Citire Mem- Wrlte Refl Scriere Memto Reg R-forrnat Mt mV X X L ■ X X Rms Valorile semnalelor de pe liniile de control sunt similare cu cele prezentate în Fig și combinate în trei grupuri corespunzătoare ultimelor trei etape ale conductei Deoarece canalizarea blocului de operare lasă neschimbată valoarea liniilor de control, putem folosi aceleași valori ale semnalelor de control din Fig arată aceleași valori ca în secțiunea , dar acum cele nouă linii de control sunt grupate în etape de conductă Instruire G* Vlah M EX IF/ID L MEM/MV imh EX/MEM Orez Liniile de control pentru ultimele trei etape Rețineți că patru din cele nouă linii de control sunt utilizate în etapa EX iar semnalele de la celelalte cinci linii de control sunt transmise ■ registrul conductei EX/MEM extins pentru a stoca semnalele liniei de control trei linii de control sunt utilizate în etapa MEM iar semnalele ultimelor două sunt transmise prin MEM/WB pentru utilizare în stadiul WB Orez Unitatea de operare cu conducte prezentată în fig , cu intrări ale semnalelor de control conectate ■ la partea de control a registrelor transportoare Valorile semnalului de control pentru ultimele trei etape sunt create în etapa de decodare a instrucțiunilor și apoi plasate în registrul conductei ID/EX Liniile de control pentru fiecare etapă a conductei sunt utilizate, iar apoi semnalele de control rămase sunt transmise către următoarea etapă a conductei Capitolul Conflicte de date; comparație între transmiterea datelor și întârzierea Implementarea controlului înseamnă semnalizarea celor nouă linii de control în funcție de aceste valori în fiecare etapă pentru fiecare instrucțiune Cel mai simplu mod de a realiza acest lucru este extinderea registrelor conductei pentru a include informații despre sistemul de control Deoarece liniile de control provin din stadiul EX, informațiile de control pot fi generate în timpul decodării instrucțiunilor Pe fig Figura arată cum aceste semnale de control sunt apoi utilizate pe indicatorul de rulare a conductei corespunzător pe măsură ce instrucțiunea se deplasează în jos pe conductă, similar modului în care numărul registrului de destinație pentru instrucțiunea de încărcare este amestecat în jos pe conductă din Figura În fig arată întregul lok de funcționare cu registre de conducte extinse și cu linii de control conectate la etapele necesare Coliziuni de date: compararea redirecționării datelor și a latenței Este un ocol! Trebuie construite bypass-uri Duilas Adams Exemplele din secțiunea anterioară au demonstrat puterea execuției conductei și ordinea în care hardware-ul computerului îndeplinește sarcina Acum este timpul să dai jos ochelarii de culoarea trandafirii și să te uiți la asta ce se întâmplă) cu programe reale Instrucţiunile prezentate în fig - , nu au depins unul de celălalt, niciunul dintre ei nu a folosit rezultatele calculate de oricare dintre celelalte II-uri, încă în Secțiunea am aflat că execuția pipeline este împiedicată de conflictele de date Luați în considerare o secvență care conține multe dependențe cu caractere aldine sub și oc add sw » registru păstrați » intrare cu subinstrucțiunea ♦ Primul operand ( ) depinde de subinstrucțiunea * Al doilea operand ( ) depinde de subinstrucțiunea * Primul ($ ) și al doilea ($ ) operanzi depind de sub # Baza ( ) depinde de instrucțiunea secundară și , , , ( ) Toate ultimele patru instrucțiuni depind de rezultatul din registrul al primei instrucțiuni Dacă registrul a avut o valoare de înainte de instrucțiunea de scădere și o valoare de - după instrucțiunea de scădere, programatorul se așteaptă ca valoarea - să fie utilizată în următoarea instrucțiune care face referire la registrul $ Și cum va fi executată această secvență în conducta noastră? Figura prezintă execuția acestor instrucțiuni ca o diagramă de conducte care arată mai multe cicluri de ceas Pentru a demonstra execuția acestei secvențe de instrucțiuni în conducta noastră actuală, în partea de sus Capitolul Procesor orez arată valoarea registrului $ , cu modificări efectuate la mijlocul celui de-al cincilea ciclu de ceas, când subinstrucțiunea își scrie rezultatul Ultimul conflict potențial poate fi rezolvat prin proiectarea fișierului de registru hardware Ce se întâmplă când un registru este citit și scris în timpul aceluiași ciclu de ceas? Presupunem că scrierea are loc în prima jumătate a ciclului de ceas, iar citirea are loc în a doua jumătate a acestuia, deci ceea ce este scris este citit În cazul multor implementări ale fișierului de registru, nu apare un conflict de date într-o astfel de situație Timp (în cicluri de ceas) — Valoarea TU' TUI MR MR MR MR<> MR MR a registrului $ /- - - - TC -douăzeci Ordinea de executare a programului (la instructiuni) sub , $ $ și dolari ,$S de USD USD adăugați USD sw$ S Orez , Distribuit într-o secvență de cinci instrucțiuni folosind blocuri operaționale simplificate pentru a demonstra aceste dependențe Toate acțiunile dependente sunt evidențiate cu gri deschis și *TC !• în partea de sus a figurii indică ciclul de ceas Prima instrucțiune scrie pentru a înregistra $ și toate instrucțiunile ulterioare citesc valoarea de $ Acest registru este scris în ciclul de ceas , astfel încât valoarea dorită nu este disponibilă până când apare ciclul de ceas (Citirea unui registru în timpul unui ciclu de ceas returnează valoarea scrisă în congs * ale primului jumătate din ciclu când are loc această scriere) Toate dependențele sunt afișate ca linii gri, care sunt direcționate de la blocul de operare superior către cele inferioare care ar trebui să meargă în timp și invers sunt conflictele de date pipeline Pe fig Figura arată că valorile citite din registrul $ nu vor fi rezultatul unei sub-instrucțiuni până când citirea este în curs Conflicte de date: compararea redirecționării datelor și a întârzierii hem al cincilea și al tuturor ciclurilor ulterioare Astfel, instrucțiuni care • primesc valoarea corectă - va fi add și sw; iar instructiunile AND si (W vor obtine valoarea corecta ' Utilizarea acestei metode de reprezentare grafica evidentiaza probleme similare atunci cand linia de dependenta merge inapoi in timp După cum sa menționat deja în secțiunea , rezultatul dorit este disponibil la sfârșitul EX sau ciclului de ceas putem executa acest fragment de cod fără întârziere dacă pur și simplu aranjam ca datele să fie transmise, de îndată ce sunt disponibile, către orice sufocă care are nevoie de el, înainte de a deveni disponibil pentru citire din registrele de mers Cum funcționează transmiterea datelor? Pentru a menține lucrurile simple, în restul acestei secțiuni, vom lua în considerare problema transmiterii „numai operațiuni ascunse efectuate în stadiul EX care pot fi fie operații ALU, fie calcule de adrese reale Dacă instrucțiunea „încearcă să folosească un registru în stadiul EX când instrucțiunea anterioară în stadiul WB) folosește același registru, avem nevoie de valorile de intrare ale ALU Mai precis, dependențele pot fi indicate de sistemul de înregistrare, care utilizează registre pipeline De exemplu, intrarea „ID/EX RegisterRs" se referă la numărul unuia dintre registrele a căror valoare poate fi găsită în registrul conductei ID/EX Prima parte a numelui din stânga perioadei este numele registrului conductei, iar a doua parte este numele câmpului acestui registru Când se utilizează această notație, cinci perechi de condiții de conflict iau următoarea formă: un EX/HM RegisterRd - ІО/EX RegisterRs Ів EX/HEM RegisterRd • ID/EX RegisterRt L MECHLL RegisterRd - IO/EX RegisterRs X MEK/UB RegisterRd - ID/EX RegisterRt Primul conflict din secvența prezentată la începutul secțiunii (resetare S ) are loc între rezultatul executării instrucțiunii sub S S J și primul operand citit al instrucțiunii și S S SS Acest conflict poate fi detectat atunci când declarația și este în stadiul EX iar instrucțiunea anterioară este în stadiul MEM, adică aceasta corespunde unui conflict Ia: U/mem RegisterRd • ID/EX RegisterRs • $ Exercitiul Detectarea dependenței Clasificați dependențele în ordinea dată la începutul secțiunii sub i să înregistreze S іеіеісi instrucțiune sub și * Ultimul operand ( ) provine din subinstrucțiunea sau ♦ al doilea operator ( ) taaisi' O' sub instrucțiuni adăugați f Second ( ) și agora ( ) operand dependent sau sub Se ( ) f vaza ( ) depinde de sub Capitolul Procesor Răspuns După cum am menționat deja subdependența și se referă la un conflict de tip Ia Toate celelalte conflicte sunt clasificate după cum urmează: Dependența sub sau se referă la tipul de conflict : CH/L Oegtsterftd - / Re«a»sterRt • J ♦ Cele două dependențe sut) add nu sunt conflicte deoarece fișierul de registru oferă datele corecte la etapa ID a instrucțiunii de adăugare ♦ Nu există niciun conflict de date între instrucțiunile sub și sw deoarece $u citește valoarea registrului în ciclul de ceas care urmează după ce sub instrucțiunea scrie date în registrul $ Deoarece unele instrucțiuni nu scriu în registre, această tehnică nu este complet exactă; uneori transmisia de date va avea loc atunci când nu este nevoie O soluție este să verificați pur și simplu dacă semnalul RegWrite va fi afirmat: prin examinarea câmpului de control WB al registrului conductei, etapele EX și MEM determină dacă semnalul RegWrite este afirmat sau nu Amintiți-vă că arhitectura MIPS necesită ca fiecare utilizare a registrului ca operand să producă o valoare a operandului zero În cazul în care instrucțiunea din conductă are S ca registru de destinație (de exemplu, sil z ), trebuie să evităm redirecționarea datelor care este posibil o valoare de rezultat diferită de zero scutește asamblatorul și programatorul compilatorului de orice cerință pentru a evita utilizarea J ca destinație de date Condițiile de mai sus funcționează corect dacă adăugăm EX/MEM Regis-terRd * la prima condiție de conflict și mim/de la RegisterRd * la a doua condiție de conflict Reușind să detectăm conflictele, rezolvăm jumătate din problemă, dar mai este nevoie să transmitem datele necesare Pe fig Figura arată relația dintre registrele conductei și intrările ALU pentru aceeași secvență de cod prezentată în Figura , Modificarea este că dependența începe cu un registru pipeline, mai degrabă decât să aștepte ca etapa WH să scrie în fișierul de registru Astfel, datele necesare pentru instrucțiunile ulterioare sunt prezente, iar datele care urmează să fie transmise sunt stocate în registrele pipeline Dacă intrarea în ALU poate fi preluată din orice registru de conducte, nu doar ID/EX, atunci putem transmite datele necesare Adăugând multiplexoare la intrarea ALU și aplicând semnalele de control adecvate, putem rula conducta la viteză maximă cu aceste dependențe de date Pentru moment, vom presupune că singurele instrucțiuni care necesită transfer de date sunt cele patru instrucțiuni în format R: add, sut, ANO și OR Pe fig arată un prim plan al ALU și a registrelor conductelor până la Conflicte de date: compararea redirecționării datelor și a întârzierii după adăugarea redirecționării datelor În tabel arată valorile simbolurilor de pe liniile de control pentru multiplexoarele ALU care selectează fie valori din fișierul de registru, fie una dintre valorile transmise Timp »un astfel de* ciclu*) ■ ■ — - a ei? înregistrare $ : Igenme EX'Mf M jchsnieMEM/WB TC TC TUJ XXX XXX TC TC TCb / - XX X- X TU TUB TU - - XXX XXX 'de dragul' VOOLIIHIA «grame ■ instrucţiuni* I sub $",$} ard $ ,$$ sau USD, USD, adăugați USD sw USD eu Orez , Dependența dintre registrele pipeline avansează în timp, astfel încât este posibil să se furnizeze intrarea ALU necesară pentru instrucțiunea AND și instrucțiunea OR prin transmiterea rezultatelor găsite în registrele pipeline Sunt afișate valorile din registrele conductei că valoarea dorită este disponibilă chiar înainte de a fi scrisă în fișierul de registru Presupunem că fișierul de registru transmite valori care sunt citite și scrise în timpul aceluiași ciclu de ceas, astfel încât execuția instrucțiunii de adăugare are loc fără întârziere, dar valorile provin din fișierul registru și nu din registrele pipeline Un fișier registru -transportă-date, adică o citire oferă o valoare de scriere pe un ciclu de ceas dat Acesta este motivul pentru care, pe ciclul de ceas , registrul Î este prezentat ca având o valoare de la începutul ciclului și - la sfârșitul ciclului Redirecționarea va fi gestionată în stadiul EX deoarece multiplexoarele pentru transmiterea datelor către ALU se găsesc tocmai în această etapă Astfel, trebuie să trecem numerele registrului operanzilor din etapa D prin registrul conductei ID/EX pentru a determina dacă să transmitem valorile Capitolul Procese sau nu Avem deja câmpul rt (cifre ) Înainte de a redirecționa către (registrul ID/EX), nu trebuie să fie inclus spațiu pentru a stoca câmpul rs Prin urmare, câmpul rs (biții - ) este adăugat la D/EX Acum să scriem ambele condiții pentru a detecta conflictele și să expunem semnalele de control pentru a le rezolva: Conflict EX dacă (EX/MEM RegWnte și (EX/MEM RegisterRd • ) și (EX/MEM RegisterRd - ID/EX RegisterRs)) ForwardA - dacă (EX/MEM RegWnte și (EX/MEM RegisterRd • ) și (EX/MEM RegisterRd - ID/EX RegisterRt)) forwardfi - Rețineți că câmpul RegisterRd EX/MEM conține numărul de registru de destinație fie pentru instrucțiunea ALU (care este preluată din câmpul Rd al instrucțiunii), fie pentru instrucțiunea de încărcare (care este preluată din câmpul Rt) În acest caz, rezultatul din instrucțiunea anterioară este transmis către orice intrare a ALU Dacă instrucțiunea anterioară urmează să scrie într-un fișier de registru și numărul de registru care este scris se potrivește cu numărul de registru citit în intrările A sau ALU cu condiția ca acesta să nu fie registrul atunci multiplexorul este instruit să preia valoarea existentă și să nu o ia din registrul conductei EX/MEM Conflict MEM: dacă (MEM/YV Regwrite și (MEM/WB RegisterRd • ) și (MEM/ME RegisterRd - ID/EX RegisterRs)) pentru"a WB tX'MEM Orez Un bloc operațional modificat pentru a rezolva conflictele prin transmiterea datelor În comparație cu blocul de operare prezentat în Fig - , aici sunt adăugate multiplexoare pe „coduri ALU”, dar această cifră este și mai convențională, deoarece omite astfel de detalii ale unui bloc de operare cu drepturi depline, cum ar fi echipamente pentru ramuri condiționate și echipamente pentru extinderea semnelor Conflicte de date: comparație între transmiterea datelor și întârzierea Capitolul Procesor datele se află în registrul MEM/WB al instrucțiunii de încărcare în momentul în care trebuie să fie utilizate în etapa MEM a instrucțiunii de stocare Dar pentru a le selecta, trebuie să adăugăm transmisia de date în stadiul de acces la memorie Lăsăm această modificare ca un exercițiu pentru cititori Printre altele, blocului operațional prezentat în Figura îi lipsește intrarea în A Y a valorii cu semn direct necesară pentru încărcări și salvări Pentru că sistemul de control principal decide dacă să trimită un registru sau o valoare imediată și pentru că blocul de redirecționare selectează un registru conductă pentru intrarea registrului în ALU cea mai simplă soluție ar fi adăugarea unui multiplexor : selectând între ieșirea multiplexorului controlată de semnalul ForwardB și o valoare imediată semnată Adăugările corespunzătoare sunt prezentate în fig , yulh EX/MEM MEMWB Orez , Un prim plan al unității de operare prezentată în fig , afișând un multillaver : adăugat pentru a selecta o locație directă semnată ■ Calitate de intrare ALU Conflicte de date și întârzieri Dacă nu funcționează la prima vedere, redefiniți criteriile de succes Autor neimediat După cum sa discutat în secțiunea , transmiterea datelor nu va ajuta la corectarea situației când o instrucțiune care încearcă să citească conținutul unui registru Comparația conflictelor de date între transmiterea și întârzierea datelor Bnytn urmează imediat o instrucțiune de încărcare care scrie în același registru Problema este prezentată în Figura Datele sunt doar citite din memorie la *în timpul ciclului de ceas iar ALU execută deja operația conform următoarei instrucțiuni Cumva, trebuie să întârziem conducta pentru combinația de încărcare, care este urmată imediat de o instrucțiune care citește rezultatul acesteia Prin urmare, pe lângă blocul de redirecționare, avem nevoie de un bloc de detectare yup cicluri) CC CC CC CC CCS CC CC? SS SS tu cu , Influența conductei asupra funcționării instrucțiunii de ramură condiționată Numerele , sunt adresele instrucțiunilor Deoarece instrucțiunea de ramificare condiționată decide dacă ramificația este necesară doar la etapa MEM - ciclul de ceas pentru instrucțiunea beq prezentată mai sus - vor fi preluate următoarele trei instrucțiuni EV cu o ramură condiționată și vor începe să fie executate Dacă nu interveniți, aceste trei instrucțiuni următoare vor începe să fie executate înainte de ramura condiționată inițiată de instrucțiunea beq către instrucțiunea Nv la adresa (În Fig , pentru a reduce conflictul de control la un ciclu de ceas, este prevăzută utilizarea de echipamente suplimentare, această figură utilizează o unitate de operare neoptimizată ) Această secțiune despre conflictele de control este mai scurtă decât secțiunile anterioare despre conflictele de date Motivul este că conflictele de control sunt relativ mai ușor de înțeles, apar mai puțin frecvent decât conflictele de date și nu există mijloace la fel de eficiente pentru rezolvarea conflictelor de control precum transmiterea de soluționare a conflictelor de date Prin urmare, se folosesc scheme mai simple Vor fi două scheme de rezolvare a conflictelor luate în considerare controlul şi optimizarea pentru îmbunătăţirea acestor scheme Capitolul Procesor Presupunerea că ramura condiționată nu va avea loc După cum se arată în secțiunea , întârzierea până atunci până la finalizarea execuției instrucțiunii ramului condiționat, duce la o funcționare prea lentă O simplă îmbunătățire față de întârzierea de ramificare condiționată este să presupunem că ramificarea condiționată nu va avea loc și, astfel, continua execuția ulterioară a fluxului de instrucțiuni adrese de sărituri condiționate Dacă salturile condiționate nu sunt luate jumătate din timp și dacă ștergerea instrucțiunilor este relativ ieftină , această optimizare reduce costul conflictelor de control la jumătate Pentru a reseta instrucțiunile, pur și simplu resetam valorile inițiale ale semnalelor de control, la fel ca și pentru întârzierea conflictului de date asociată cu necesitatea de a utiliza imediat datele nou încărcate că, de asemenea, trebuie să schimbăm cele trei instrucțiuni din etapele IF, D și EX atunci când instrucțiunea de salt condiționat ajunge la stadiul MEM; pentru întârzierile asociate cu necesitatea utilizării imediate a secretelor nou încărcate, doar resetam semnalele de control în stadiul ID și le lăsăm să treacă prin conductă Instrucțiunile de spălare înseamnă că ar trebui să le putem spăla în etapele IF, D și EX ale conductei Reducerea întârzierii salturilor condiționate O modalitate de a îmbunătăți performanța salturilor condiționate este de a reduce supraîncărcarea unui salt condiționat finalizat Până acum, am presupus că următoarea valoare a contorului programului (PC) este aleasă în etapa MEM dar dacă mutăm execuția ramurii condiționate la etapele anterioare ale conductei, atunci mai puține instrucțiuni vor trebui spălate Arhitectura MIPS a fost concepută pentru a suporta salturi condiționate rapide cu un singur ciclu, care pot fi canalizate cu puțină supraîncărcare Designerii au observat că multe salturi condiționate depind doar de teste simple (de exemplu, pentru egalitate sau semn) și că astfel de teste nu necesită o operație ADE completă și pot fi efectuate cel mult cu doar câteva porți logice Când o ramură condiționată necesită mai multe decât o decizie complexă, este necesară o instrucțiune separată care utilizează o ALU pentru a efectua comparația - această situație este similară cu utilizarea codurilor de condiție pentru sărituri condiționate (a se vedea capitolul ) Pentru a muta o decizie într-o sucursală condiționată în sus, până la acest punct trebuie efectuate două acțiuni: calculul adresei țintă a sucursalei și calculul deciziei de ramură Cel mai simplu mod în această „schimbare este de a muta în sus calculul Resetați instrucțiunile în conductă, turnați „această adresă de salt din stânga \ avem deja o valoare din cauza unui eveniment RS neașteptat și a unui câmp de valoare imediat în re- Conflicte de management a conductei IF/ID, așa că doar mutăm acumulatorul de tranziție de la FFi și EX la oțelul ID; desigur, calculul adresei țintă a sucursalei va *xxvl pentru toate instrucțiunile și va fi folosit numai atunci când este necesar Pentru un salt condiționat, poate doriți să comparați valorile citite ale celor două registre din etapa D pentru a determina dacă sunt egale între ele Egalitatea poate fi testată prin XOR biții respectivi ^► prin aplicarea operației OR la toate rezultatele b Mutarea testului de condiție de tranziție la etapa ID implică prezența unui echipament prealabil de transmitere a datelor și de detectare a coliziunilor De exemplu, o ramură condiționată care depinde de rezultatul fiind încă i>® mv « ye|x ar trebui să funcționeze în continuare corect după această optimizare, de exemplu, pentru a implementa ramura condiționată pe egalitate (și inversarea acesteia) trebuie să transmiteți valorile unității logice, care verifică ID-ul alias de egalitate ) Există doi factori care complică situația: ■ În etapa ID, trebuie să decodificăm instrucțiunea, să decidem dacă să parcurgem datele pentru testerul de egalitate și să finalizăm compararea egalității astfel încât atunci când se execută o instrucțiune de ramificare condiționată, putem atribui valoarea adresei de destinație a săriturii către PC Redirecționarea datelor pentru operanzi de ramificație condiționată a fost controlată anterior de logica de redirecționare a ALU, dar introducerea unui bloc de testare a egalității în D va necesita o nouă logică de redirecționare - blocare transportor MEM/WB Deoarece valorile comparate în ramura condiționată sunt necesare în etapa ID, dar pot fi emise mai târziu în timp, există posibilitatea unui conflict de date și poate fi necesară o întârziere De exemplu, dacă instrucțiunea ALU imediat înainte de ramura condiționată produce unul dintre operanzii de comparat în ramura condițională, ar fi necesară o întârziere deoarece etapa EX pentru instrucțiunea ALU ar veni după ID-ul etapei ramurii condiționate În plus, dacă rezultatul încărcării este urmat imediat de o ramură condiționată a rezultatului încărcării, ar fi necesare două cicluri de întârziere, deoarece rezultatul încărcării apare la sfârșitul etapei MEM dar necesitatea acesteia apare la începutul etapei de identificare a ramurilor condiționate În ciuda acestor complexități, mutarea execuției ramificației condiționate în etapa D este o îmbunătățire, deoarece reduce suprasarcina unei ramificații condiționate la o singură instrucțiune dacă ramificația apare, și anume aceea care tocmai a fost extras Exercițiile explorează detaliile implementării căilor de redirecționare și detectării conflictelor Pentru a spăla instrucțiunile din etapa F, adăugăm o linie de control numită AND Flush punerea la zero a câmpului de instrucțiuni al registrului conductei IF/ D Ștergerea registrelor transformă instrucțiunea preluată într-un por - o instrucțiune care nu efectuează nicio acțiune și nu schimbă nicio stare Capitolul Procesor Exercitiul Salt condiționat în conducte Arătați ce se întâmplă atunci când o ramură condiționată este preluată în secvența dată de instrucțiuni, cu condiția ca conducta să fie optimizată pentru ramuri condiționate eșuate și să fi mutat execuția ramurii condiționate în etapa I D): UT) USD dolari USD beq USD, USD ♦ transferul purtătorului RS la ♦ ♦ * - pe USD dolari USD de la USD dolari USD sau USD USD slt USD USD USD II și $ O( USD) Răspuns Figura arată ce se întâmplă atunci când apare ramura condiționată Spre deosebire de Figura - , există o singură bulă de conductă când apare ramura condiționată Predicția dinamică a ramurilor condiționate Presupunerea că o ramură nu va avea loc este una dintre cele mai simple forme de a prezice o ramură condiționată În acest caz, anticipăm că nu va exista nicio tranziție prin resetarea conductei atunci când predicția este greșită Pentru o conductă simplă de cinci etape, această abordare, poate în combinație cu predicția compilatorului, este probabil destul de adecvată Pentru transportoare mai adânci suprasarturile condiționale, măsurate în cicluri de ceas, crește În mod similar, rularea mai multor instrucțiuni deodată (vezi Secțiunea ) mărește sarcina deasupra, măsurată în instrucțiuni pierdute Această combinație înseamnă că într-o conductă aglomerată, o schemă simplă de predicție statică va degrada probabil performanța prea mult și în mod inutil După cum sa menționat deja în Secțiunea , cu echipamente mai avansate, se poate încerca să prezică rezultatul unei ramuri condiționate în timpul execuției programului O abordare este să căutați adresa instrucțiunii pentru a determina dacă ramura condiționată a avut loc atunci când instrucțiunea a fost executată ultima dată și, dacă da, continuați să obțineți o nouă instrucțiune sau aceeași locație ca ultima dată Această tehnică se numește predicție dinamică a ramurilor condiționate Predicția dinamică a ramurilor condiționate Predicția unei tranziții în timpul execuției programului folosind informațiile obținute în același proces Conflicte de management Orez , În etapa de identificare a ciclului de ceas, se determină că ramura condiționată ar trebui să aibă loc, astfel încât este selectat ca următoarea adresă PC și instrucțiunea preluată pentru următorul ciclu de ceas este setată la zero Pe ciclul de ceas , instrucțiunea preluată de la adresa și instrucțiunea cu un singur balon, sau pore, din conductă sunt afișate ca rezultat al unei traduceri condiționate finalizate ID-ul în ciclul de ceas sau nu este discutabil ) Capitolul Procesor O implementare a acestei abordări este bufferul de predicție a ramurilor sau tabelul istoric al ramurilor Un buffer de predicție a ramurilor este un bloc mic de memorie indexat folosind capătul inferior al adresei unei instrucțiuni de ramificare condiționată Memoria conține un pic care indică asta indiferent dacă tranziția a fost făcută recent sau nu Acesta este cel mai simplu tip de buffer; de fapt nu știm dacă predicția este corectă, poate fi pusă acolo printr-un alt salt condiționat având aceiași biți de ordin inferior ai adresei Dar acest lucru nu afectează acuratețea Predicția este doar un indiciu asupra corectitudinii căreia se hrănesc speranțe și de care începe extragerea instrucțiunilor în direcția prezisă Dacă indicația se dovedește a fi incorectă, instrucțiunile prezise incorect sunt eliminate, bitul de predicție este inversat și stocat în locul său inițial, iar apoi secvența corectă de instrucțiuni este preluată și executată O schemă simplă de predicție pe un bit nu oferă o îmbunătățire vizibilă a performanței: chiar dacă tranziția are loc aproape întotdeauna, putem face o eroare de predicție de două ori și nu o dată, ca în cazul fără tranziție O dificultate similară este demonstrată în exercițiul următor Exercitiul Cicluri și hipnoză Luați în considerare o ramură condiționată într-o buclă care a avut loc de nouă ori la rând și apoi a eșuat o dată Care este acuratețea predicției pentru această ramură, având în vedere că bitul de predicție pentru ea se află în tamponul de predicție? Răspuns O stare constantă de predicție va face ca prima și ultima iterație a buclei să fie estimate greșit Ultima iterație de predicție greșită este inevitabil Bitul de predicție va indica o tranziție reușită, deoarece tranziția a avut loc de nouă ori la rând până acum Predicția incorectă a primei iterații este dată din cauza faptului că bitul și-a schimbat valoarea în timpul execuției anterioare a ultimei iterații a buclei, deoarece în timpul iterației cu ieșirea din buclă, tranziția nu a avut loc Astfel, acuratețea predicției că această tranziție va avea loc este de doar % în % din cazuri (două predicții incorecte din opt corecte) În mod ideal, pentru astfel de tranziții condiționate extrem de regulate, precizia predictorului ar corespunde frecvenței acestor tranziții Pentru a depăși acest neajuns, sunt adesea folosite scheme de predictor pe biți Într-o schemă pe biți, predictorul trebuie să eșueze de două ori înainte ca valoarea sa să se schimbe Figura - prezintă o mașină de stări pentru un circuit predictor pe doi biți Buffer de predicție de traducere Denumit și tabel istoric de ramuri Un bloc mic de memorie indexat folosind partea de ordin inferioară a adresei unei instrucțiuni de ramificare condiționată și care conține unul sau mai mulți biți care indică acest lucru tranziția a avut loc • ultima dată sau nu Bufferul predictor de ramificare condiționată poate fi implementat ca un mic buffer personalizat disponibil împreună cu adresa de instrucțiuni pe oțelul conductei IF Dacă se prevede că acțiunea instrucțiunii a avut loc, extragerea începe la adresa țintă imediat ce este și în i iui contorul programului; ca deja mai devreme, cromeoAtn poate deja „a etaіѵp *” Ъ Conflicte de management proil „Preluarea următoarei instrucțiuni în ordine și executarea ei Dacă іінш se dovedește a fi incorect, cifrele predictorului își vor schimba valoarea, așa cum se arată în Fig , ■borcan State ■ schema de predicție pe doi biți Prin utilizarea ■prin cifre în locul unei singure tranziții care este cel mai adesea ținută sau nefinalizată - ceea ce se întâmplă cu multe tranziții - va fi greșit să întrebați noeiro-n o singură dată Doi biți sunt utilizați pentru a codifica cele patru stări ale sistemului primind un prefix negativ atunci când este inexact și folosind starea medie a acestuia intervalul de numere ca discrepanța dintre predicția unei tranziții trecute și eșuate Clarificare După cum sa discutat în Secțiunea , într-o conductă în cinci etape, depășirea unei ramuri condiționate poate provoca un conflict de control O ramură întârziată duce întotdeauna la execuția următoarei instrucțiuni, iar a doua instrucțiune care urmează instrucțiunii de ramificare condiționată va fi afectată de acea ramură Compilatorii și asamblatorii încearcă să pună instrucțiuni care sunt întotdeauna executate după o ramificare în slotul de întârziere a ramurilor Sarcina software-ului este de a face instrucțiunile ulterioare valide și utile Figura prezintă trei moduri de a programa un interval de întârziere a ramurilor Limitările impuse de dispecerarea amânată a ramurilor provin din: i) restricții impuse instrucțiunilor plasate în sloturi de întârziere și ) capacitatea noastră de a prezice în momentul compilării dacă o ramificare este probabil să fie luată sau nu Slot de întârziere a tranziției Slot imediat după o instrucțiune de ramificare condiționată în așteptare, care în arhitectura MIPS este plină cu instrucțiuni care nu afectează ramificația Capitolul Procesor Ramificarea condiționată amânată a fost o soluție simplă și eficientă pentru o conductă în cinci etape care execută o instrucțiune pe ciclu de ceas secțiunea ) întârzierea de ramificare condiționată devine mai lungă și intervalul de întârziere unic devine insuficientă De aceea, ramificarea condiționată întârziată își pierde popularitatea în comparație cu abordările dinamice mai costisitoare, dar mai flexibile Odată cu aceasta, creșterea numărului de tranzistori disponibili pe un singur cip a condus la o reducere relativă a costului predicției dinamice a) IE anterior adăugați SSL, SU SU tf Ssl - atunci slot de întârziere Devine ) ii target subSt StS $t -a-, adăugați SSL SU SSL IfSsIeOthen - | Slot hold" StaioEigsl C) și irealizabil adăugați SSL Ssl Ssl rtSsI-Altele - SLOT delay sub S atunci - | sub St , StS St Devine adăugați SSL SU SSL KSsI-Altele sub St , StS, St Orez , Alcătuirea unui slot de întârziere de tranziție Blocurile superioare și fiecare pereche arată codul înainte de compunere, iar cele inferioare după compunere - imposibil În secvența de cod pentru exemplele „b” și „c”, utilizarea lui Ssl în condiția de ramificare împiedică instrucțiunea add (a cărei destinație registrul este Ss ) de la trecerea la slotul de întârziere de ramificare În secvența de cod, de exemplu -b - slotul de întârziere de ramificare este alcătuit din instrucțiunea , care servește ca țintă a săriturii, de obicei instrucțiunea țintă va trebui copiată deoarece nu există altă cale de a ajunge la ea Abordarea -b- este mai de preferat când o ramură condiționată poate avea loc cu un grad mare de probabilitate, de exemplu, dacă este o ramură în timpul executării unei bucle În cele din urmă, un interval de întârziere a unei ramuri poate fi compus dintr-o instrucțiune care nu este executată la ieșirea buclei, ca în exemplu -c- Pentru ca această optimizare să fie valabilă pentru make-up artist - b- sau „c*, ar trebui să fie perfect acceptabil să se execute sub instrucțiunea atunci când saltul este într-o direcție neașteptată Prin acceptabilitate, înțelegem că munca se va face în zadar, dar acest lucru nu va afecta execuția corectă a programului Acest lucru se poate întâmpla, de exemplu, dacă în momentul de față salt în direcția neașteptată St a fost un registru temporar neutilizat Conflicte de management vmchnvnie Blocul de predicție a tranziției raportează dacă această tranziție va avea loc •c Nu dar mai trebuie să calculeze adresa țintă a saltului În conductă * Mgty de etape, acest calcul durează un ciclu, ceea ce înseamnă că „mișcările” finalizate vor avea un cost de un ciclu Una dintre abordările de care să scapi -a * întârziere, este un salt întârziat O altă abordare este utilizarea • Furnizarea unui cache pentru a stoca adresa țintă pentru contorul de program sau instrucțiunea țintă, adică folosind un buffer de adresă de salt Schema de predicție dinamică pe biți utilizează numai informații despre o anumită tranziție Cercetătorii au observat că utilizarea informațiilor locale despre tranziția locală și comportamentul global al tranzițiilor recent finalizate are ca rezultat predicții mai precise pentru același număr de biți de predicție Astfel de predictori se numesc blocuri de predicție de potrivire Un bloc tipic poate avea doi predictori de doi biți pentru fiecare ramură condiționată, iar alegerea predictorului se poate baza pe dacă ultima ramură condiționată a fost luată sau nu Astfel, comportamentul global poate fi considerat ca adăugarea de biți index suplimentari pentru a căuta o predicție Cea mai recentă inovație în predicția de ramură este utilizarea predictorilor competitivi Aceștia folosesc mai mulți „predictori” și țin evidența care predictor este cel mai bun pentru fiecare ramură Un predictor competitiv tipic poate conține doi predictori pentru fiecare indice de ramură condiționat: unul bazat pe local informații și unul bazat pe comportamentul global al ramurilor condiționate Selectorul va alege ce predictor să aplice pentru fiecare bloc individual de predicție competitivă În mod similar, selectorul poate funcționa cu predictori de unul sau doi biți, alegând din predictorul care a fost mai precis Blocuri de predicție similare destul de complexe sunt utilizate în unele dintre cele mai recente microprocesoare Jump Address Buffer O structură care memorează în cache adresa ramului țintă pentru un contor de program sau instrucțiunea țintă a unei ramuri De obicei, un buffer este organizat ca un cache de subiecte ceea ce îl face mai scump decât un simplu tampon de predicție Clarificare O modalitate de a reduce numărul de sărituri condiționate este să adăugați instrucțiuni de mutare condiționată În loc să modifice valoarea contorului de programe (PC) ca urmare a unei ramuri condiționate, instrucțiunea, în conformitate cu condiția, modifică valoarea registrului de destinație al datelor mutate Dacă condiția nu este îndeplinită, mutarea acționează ca o instrucțiune goală (por) De exemplu, într-o versiune a arhitecturii setului de instrucțiuni MIPS, există două instrucțiuni noi numite poѵn (mutare dacă i este zero) și iaovz (deplasare dacă este egal cu zero) Respectiv Co pos g este un bloc de predicție Predictor de ramificație care combină comportamentul local al unei anumite ramuri și informații globale despre comportamentul ultimelor câteva instrucțiuni de ramuri condiționate executate Bloc de predicție competitivă Un predictor de ramură cu mai mulți predictori pentru fiecare ramură condiționată și un mecanism pentru selectarea unui predictor valid pentru o ramură dată Capitolul Procesor instrucţiunea gaofn $ ŞI copiază conţinutul registrului în registrul cu condiţia că valoarea din registrul nu este zero; în caz contrar, această instrucțiune nu are efect Setul de instrucțiuni ARM are un câmp de condiție în majoritatea instrucțiunilor Prin urmare, programele ARM pot conține mai puține ramuri condiționate decât programele MIPS Scurte concluzii despre pipeline Luarea în considerare a acestei probleme a început în spălătorie, unde au fost prezentate principiile de transmitere în viața de zi cu zi Folosind această analogie ca tutorial, am explicat instrucțiunile canalizate pas cu pas, începând cu un bloc operațional cu un singur ciclu, apoi adăugând registre de conducte, căi de date, detectarea conflictelor de date, predicția ramurilor condiționate și resetarea instrucțiunilor la excepții Figura prezintă vederea finală a blocului de operare și a blocului de control Acum suntem gata să luăm în considerare un alt conflict de control Orez , V Vederea finală a unității de operare și a unității de control Trebuie remarcat faptul că aceasta este o reprezentare simbolică și nu detaliată a blocului de operare, astfel încât multiplexorul controlat de semnalul ALUSrc prezentat în Figura - și semnalele de control ale multiplexorului prezentate în Figura - sunt omise aici Excepții Іamolroverka Există trei scheme pentru prezicerea unei tranziții condiționate: prognoza care tranziție nu va avea loc, că va avea loc și predicția dinamică Să presupunem că toate aceste scheme sunt gratuite cu predicție de succes și au doar o pierdere de ciclu cu eșec predictiv și să presupunem că precizia medie a predicției dinamice este de % Care dintre blocurile de predicție va fi cea mai bună alegere pentru următoarele sărituri condiționate? O ramură condiționată care rulează la o frecvență de % O ramură condiționată care rulează la o frecvență de % & O ramură condiționată care rulează la o frecvență de % Excepții Întreținerea unui computer cu capacitate automată de întrerupere serială nu a fost o sarcină ușoară din cauza numărului de instrucțiuni care se află în diferite etape ale procesului de execuție când sosește un semnal de întrerupere, pot fi destul de mari Fracy Brooks a mers controlul este cel mai complex aspect al designului procesorului, este cel mai greu de făcut corect și nu cel mai puțin dificil să scoți o rachetă rapidă din el Ini-urile au fost create inițial pentru a gestiona evenimente neașteptate din procesor, cum ar fi un depășire aritmetică Același mecanism de bază, așa cum va fi arătat în Capitolul , a fost extins pentru ca dispozitivele I/O să comunice cu procesorul Multe arhitecturi și autori nu fac distincție între întreruperi și excepții, folosind adesea numele anterioară de întrerupere pentru a se referi la ambele tipuri de evenimente De exemplu, Intel x folosește termenul „întrerupere” Noi suntem urmând convenția adoptată în M PS, folosim termenul de excepție pentru a ne referi la orice modificare neașteptată a algoritmului de control, fără a distinge cauza internă sau externă a apariției acestuia; termenul de întrerupere este folosit numai atunci când evenimentul este declanșat Excepție Denumit și întrerupere Un eveniment neprogramat care întrerupe execuția programului este utilizat atunci când este detectată o depășire Întrerupe Excepția care nu este aruncată de CPU (În unele arhitecturi, termenul -întrerupere- este folosit pentru toate excepțiile) Capitolul Procesor Cauze externe Următoarele sunt cinci exemple care arată crearea unei situații atât de către procesor, cât și de factorii externi: Tipul evenimentului Originea sursei Terminologia MIPS Solicitare dispozitiv I/O întrerupere externă Apel de sistem de operare de la programul utilizator Excepție internă Excepție interioară a depășirii aritmetice Folosind o instrucțiune nedefinită Excepție interioară Defecțiuni hardware Atât interne cât și externe Excepție sau întrerupere Multe dintre cerințele pentru susținerea excepțiilor provin dintr-o situație specifică care provoacă excepția În consecință, vom reveni la acest subiect în Capitolul unde vor fi discutate ierarhiile de memorie și în Capitolul unde vor fi discutate I/O, iar apoi vom înțelege mai bine motivația creării de caracteristici suplimentare în mecanismul de excepție Această secțiune discută implementarea unui control pentru detectarea a două tipuri de excepții aruncate de partea din setul de instrucțiuni deja discutată Detectarea condițiilor de excepție și luarea măsurilor adecvate se află adesea pe calea de sincronizare critică a procesorului, care determină durata ciclului de ceas și, prin urmare, performanța Fără o atenție adecvată acordată excepțiilor în etapa de proiectare a unei unități de control, încercarea de a adăuga excepții la o implementare complexă poate reduce semnificativ performanța și, de asemenea, poate face mai dificilă obținerea designului corect Ordin de manipulare excepție în arhitectura MIPS Două tipuri de excepții care pot fi aruncate de implementarea noastră curentă sunt execuția de instrucțiuni nedefinite și depășirea aritmetică Vom folosi depășirea aritmetică în instrucțiunea add îl ca exemplu de excepție în următoarele câteva pagini $ Acțiunea principală care trebuie efectuată de procesor atunci când apare o excepție este de a stoca adresa instrucțiunii problematice în contorul de programe de excepție (EPC) și de a transfera controlul către sistemul de operare la o anumită adresă Sistemul de operare poate lua apoi o acțiune adecvată, care poate include furnizarea unui serviciu programului utilizator, efectuarea unei acțiuni predefinite ca răspuns la depășirea programului sau oprirea execuției și emiterea unui mesaj de eroare Excepții - efectuând o acțiune cauzată de o excepție, sistemul de operare poate opri execuția programului sau îl poate continua în M * ~ shell folosind EPC pentru a determina locația reluării execuției VNChAy sistemul de operare a gestionat excepția, cu excepția Ogrupării care a provocat-o trebuie cunoscută cauza excepției Există două metode principale de raportare a cauzei AV Metodă utilizată în arhitectură ♦ PS este să porniți registrul de stare (numit registru * și motive - Registrul cauzei) care conține un câmp care indică motivul săriturii A doua metodă este de a folosi întreruperi vectoriale Într-o întrerupere, adresa la care este transferat controlul este determinată de oprirea excepției De exemplu, pentru a servi cele două tipuri de hsnia de mai sus, putem defini următoarele două adrese de vector de excepție: Tip excepție Adresă vector de excepție (hexazecimală) '•Instrucțiune definită , • affmeicheskoo preaplin , Sistemul de operare cunoaște motivul excepției din adresa inipia jatspi Adresele sunt separate de de octeți sau opt instrucțiuni, iar sistemul de operare trebuie să scrie cauza excepției în această secvență și să facă o procesare limitată Când excepţia nu este ■-ctor Pentru toate excepțiile, se poate folosi același punct de mișcare, iar pentru determinarea cauzei, sistemul de operare decodifică registrul de stare Putem efectua gestionarea necesară pentru excepții adăugând câteva registre suplimentare și semnale de control la implementarea noastră de bază și extinzând puțin sistemul de control Să presupunem că implementăm sistemul de excepții utilizat în arhitectura M PS cu un punct de intrare la (Implementarea excepțiilor vectoriale nu este mult mai complicată ) Două registre suplimentare trebuie adăugate la implementarea MIPS ♦ EPC: registru de de biți utilizat pentru a stoca adresa instrucțiunii care a cauzat excepția (un astfel de registru este necesar chiar și atunci când excepțiile sunt vectoriale) ♦ Cauză: Registrul utilizat pentru înregistrarea cauzei excepției În arhitectura MIPS, acest registru este format din de biți, deși unii dintre biți nu sunt utilizați în prezent întreruperea ventilatorului O întrerupere pentru care adresa la care va fi transferat controlul este determinată de cauza întreruperii Capitolul Procesor Excepții într-o implementare pipeline Într-o implementare pipeline, excepțiile sunt tratate ca o altă formă de conflict de control Să presupunem, de exemplu, că a avut loc o depășire aritmetică în timpul executării instrucțiunii de adăugare - add La fel ca și în secțiunea anterioară pentru ramura condiționată finalizată trebuie să ștergem instrucțiunile care urmează instrucțiunii de adăugare din conductă și să trecem la preluarea instrucțiunii de la noua adresă Va fi folosit același mecanism ca și pentru salturile condiționate care au avut loc, dar de data aceasta excepția va determina resetarea liniilor de control Când ne-am ocupat de ramificarea condiționată greșită, am văzut cum să resetam o instrucțiune în etapa IF transformând-o într-o instrucțiune goală - por Pentru a reseta instrucțiunile din etapa ID, folosim multiplexorul deja prezent în această etapă, care resetează semnalele de control pentru întârziere Un nou semnal de control numit ID Flush suferă o operație OR împreună cu semnalul de întârziere din blocul de detectare a erorilor și resetarea instrucțiunii în etapa ID Pentru a reseta instrucțiunile de pe oțelul EX, folosim un nou semnal numit EX Flush pentru a forța noile multiplexoare să ștergă semnalele de pe liniile de control În ziua în care începem să extragem instrucțiuni de la adresa lt, care este o adresă de excepție în MIPS, pur și simplu adăugăm o altă intrare în multiplexorul PC-ului transmiterea n adresa RS Aceste modificări sunt prezentate în Fig Acest exemplu expune problema cu excepții: dacă nu oprim execuția în mijlocul unei instrucțiuni, programatorul nu va putea vedea valoarea inițială a registrului S ceea ce a ajutat la depășire, deoarece ar fi suprascris datorită faptului că acest registru din instrucțiunea de adăugare este registrul de destinație Prin acțiuni atent planificate, excepția de depășire va fi prinsă în stadiul EX; prin urmare, semnalul EX Flush poate fi folosit pentru a preveni o instrucțiune din stadiul EX să își scrie rezultatele în stadiul WB Multe excepții necesită ca în cele din urmă să finalizăm execuția instrucțiunii care a cauzat excepția, ca și cum s-ar executa normal Cel mai simplu mod de a implementa această idee este să resetați instrucțiunea și să o rulați din nou de la început după ce excepția a fost gestionată Pasul final este stocarea adresei instrucțiunii care a cauzat excepția în contorul de instrucțiuni de excepție (EPC) Adresa ♦ este de fapt stocată, deci rutina de excepție trebuie mai întâi să scadă valoarea stocată cu Figura - arată o versiune condiționată a blocului op, inclusiv hardware-ul de salt condiționat și dispozitivele de gestionare fără excepții Orez , Bloc de operare cu sistem de control pentru tratarea excepțiilor Adăugările cheie constau într-o nouă intrare în multiplexor cu o valoare de ,, care oferă o nouă valoare pentru contorul de programe (PC) un registru pentru a înregistra cauza excepției (Caise) și un registru contor de instrucțiuni de excepție (EPC) pentru a stoca adresa instrucțiunii care a generat excepția Nu este încă afișat aici ca intrare la unitatea de control, semnalul ALU de preaplin Excepții W Capitolul Procesor Exercitiul Excepție • calculator pipeline Să presupunem ce pentru o secvență de instrucțiuni " sub si sau CI mi sil la Sil V ( ) instrucțiuni care vor fi date prin excepție: sa ( ) , (W) Spectacol ce se întâmplă în conductă dacă apare o excepție de depășire într-o instrucțiune de adăugare Răspuns Figura - prezintă evenimentele de la execuția instrucțiunii atâ până la etapa EX O depășire este detectată în etapa a -a și contorul de programe este forțat la B | La ciclul de ceas , arată că „dd și următoarele instrucțiuni sunt spălate și prima instrucțiune a codului de excepție este preluată Atenție la asta că adresa următoarei instrucțiuni care urmează instrucțiunii de adăugare este stocată CH * - ,s La începutul Secțiunii , au fost menționate cinci exemple de excepții, toate celelalte excepții vor fi discutate în Capitolele și Când există cinci instrucțiuni active în orice ciclu de ceas, nu este ușor să asociați o excepție cu instrucțiunea corespunzătoare Mai mult, mai multe excepții pot apărea în același ciclu de ceas Soluția este să prioritizați excepțiile, astfel încât să fie mai ușor să determinați care dintre acestea ar trebui tratate mai întâi În majoritatea implementărilor MIPS, hardware-ul sortează excepțiile astfel încât cea mai veche instrucțiune să fie întreruptă Solicitările de I/O și defecțiunile hardware nu sunt specifice instrucțiunilor, astfel încât implementarea are o oarecare flexibilitate în alegerea când să întrerupă conducta Prin urmare, mecanismul folosit pentru alte excepții funcționează destul de satisfăcător Registrul EPC captează adresa instrucțiunilor întrerupte, iar registrul MIPS Cause înregistrează toate excepțiile posibile care au apărut în timpul ciclului de ceas, astfel încât software-ul de excepție trebuie să se potrivească cu excepția care a apărut în timpul executării acestei instrucțiuni Este foarte important să știți în ce stadiu al conductei poate apărea această sau acea excepție De exemplu, o instrucțiune nedefinită este detectată în etapa ID iar apelul sistemului de operare are loc în stadiul EX Excepțiile sunt colectate în registrul Cauză din câmpul Excepții în așteptare, astfel încât hardware-ul să se poată anula pe baza excepțiilor ulterioare, de îndată ce este tratată cea mai devreme excepție Excepții pwc Rezultatul unei excepții aruncate de o depășire aritmetică atunci când se utilizează instrucțiunea add Depășirea a fost detectată în etapa EX a ciclului de ceas În același timp, adresa instrucțiunii care urmează instrucțiunii de adăugare ( C * ■ ,) a fost stocată în registrul EPC Depășirea a făcut ca toate semnalele de resetare să fie setat aproape de sfârșitul acestui ciclu de ceas - Reducerea la zero FlusK pentru valorile semnalului de control al instrucțiunii de adăugare se arată ciclul de ceas că toate instrucțiunile din conductă sunt balonate și, în plus, arată extragerea primei instrucțiuni din rutina de gestionare a excepțiilor - sw $ lOOOțSO) - dintr-un loc din memoria instrucțiunilor BOOO b " Fii atent la asta că instrucțiunile ANO și OR declarațiile de adăugare anterioare sunt încă finalizate Deși nu este afișat, un semnal de depășire ALU este introdus la unitatea de control Capitolul Procesor Interfață hardware și software Hardware-ul și sistemul de operare trebuie să funcționeze împreună, astfel încât excepțiile să fie zero așa cum era de așteptat De obicei, este responsabilitatea hardware-ului să oprească instrucțiunea problematică în cursul execuției sale, să permită ca toate instrucțiunile precedente să termine executarea, să resetați toate instrucțiunile ulterioare, să seteze valoarea registrului care furnică cauza excepției, să stocheze adresa instrucțiuni problematice și apoi săriți necondiționat la o adresă prestabilită sarcina este să priviți excepția și să acționați în consecință Pentru o instrucțiune nedefinită, o defecțiune hardware sau depășire aritmetică, sistemul de operare închide de obicei programul și returnează informații care furnică motivul acțiunilor sale Pentru solicitările venite de la dispozitivele I/O sau apelurile de service către sistemul de operare, sistemul de operare salvează starea programului, efectuează sarcina dorită și după aceea returnează controlul programului pentru a-și continua execuția În cazul solicitărilor de I/O, putem alege adesea să începem o altă sarcină înainte de a relua sarcina care a solicitat I/O pentru că această sarcină nu poate rula până atunci până la finalizarea I/O De aceea este important să poți salva și restabili starea oricărei sarcini Una dintre cele mai importante și frecvente utilizări ale excepțiilor este gestionarea excepțiilor legate de absența paginii dorite și a celei dorite înregistrare în tamponul TIB Aceste excepții și gestionarea lor sunt discutate mai detaliat în Capitolul Clarificare Dificultatea de a lega întotdeauna excepția corespunzătoare la instrucțiunea corespunzătoare în computerele pipeline i-a determinat pe unii proiectanți de calculatoare să relaxeze aceste cerințe în situații necritice Despre astfel de procesoare se spune că au întreruperi imprecise sau excepții imprecise În exemplul de mai sus, contorul de programe (PC) era la adresa EPC și lăsați-l pe seama sistemului de operare să determine instrucțiunea care a cauzat problema MIPS și vastul majoritatea celor de azi Întreruperea inexactă Denumită și excepție fuzzy Întreruperi sau excepții în conductă* ale computerelor care nu sunt asociate cu instrucțiunea specifică care a cauzat întreruperea sau excepția Întreruperea precisă Denumită și excepție exactă O întrerupere a afidelor este o excepție care este întotdeauna asociată cu instrucțiunea corespunzătoare în computerele pipeline computerele acceptă întreruperi exacte sau excepții exacte (Un motiv este suportul pentru memoria virtuală, care va fi discutat în capitolul ) Clarificare Deși aproape toate excepțiile din MIPS folosesc adresa de intrare ,,, pentru a îmbunătăți performanța pe acest sistem, ca adresă a handler-ului de excepții asociat cu lipsa adresei dorite în TLB se folosește adresa ,c (vezi capitolul ) Paralelism și paralelism extins la nivel de instrucție Verificare personală Ar trebui să fie prinsă prima excepție în această secvență? I Z F Do Z $ EU SUNT # depășire aritmetică ♦ instrucțiune nedeterminată” În dolari yal S $ ♦ eroare hardware Paralelism și paralelism avansat la nivel de instrucție feksver avertizează că această secțiune este un rezumat al unor subiecte foarte specifice, dar extinse Dacă aveți nevoie să obțineți informații mai detaliate - ■ m Ar trebui să consultați cartea noastră Computer Architecture-A Quantitative Ap-Fourth Edition, unde materialul este discutat în următoarele zece pagini extins la aproape de pagini (inclusiv atașamente)! ' Pipelinging exploatează potențialul paralelism între instrucțiuni Acest paralelism se numește paralelism instruction-trei (ILP) Există două metode principale de creștere a cantității de paralelism la nivel de instrucție Primul este de a ■ adâncirea transportorului pentru a gestiona mai multe încărcături simultan Folosind analogia noastră cu rufele, presupunând că ciclul de spălare este cel mai lung putem distribui funcția unei mașini de măturat la trei mașini care efectuează etapele de spălare, clătire și centrifugare ale unei mașini generale tradiționale Apoi putem trece de la un transportor cu patru trepte la un transportor cu șase trepte Pentru a obține o accelerație completă, trebuie să reechilibram pașii rămași, astfel încât să aibă aceeași durată între procesoare (sau spălătorie) i) Cantitatea de paralelism folosită devine mai mare pe măsură ce mai multe instrucțiuni sunt »executate în același timp A doua abordare este de a duplica componentele interne ale computerului, permițându-vă să rulați mai multe instrucțiuni simultan în fiecare etapă a conductei Numele generalizat al acestei tehnologii este lansare paralelă Va trebui, de asemenea, angajați mai mulți ajutoare pentru a plia arborele și transportați-l în zona de depozitare în același timp Dezavantajul abordării logo-ului este munca suplimentară de încărcare a tuturor mașinilor și transferul loturilor de lenjerie pe următorul transportor de oțel Rularea mai multor instrucțiuni simultan într-o etapă diferită permite ca frecvența de execuție a instrucțiunii să depășească frecvența ceasului sau cu alte cuvinte, pentru a realiza un indicator al IPC, mai mic de Paralelism la nivel de instrucție Paralelism de instrucțiuni Lansare paralelă O schemă în care mai multe instrucțiuni sunt lansate simultan într-un singur ciclu de ceas Capitolul Procesor unitate Uneori este util să schimbați componentele indicatorului și să folosiți IPC, sau numărul de instrucțiuni pe ciclu de ceas Pe baza acestui lucru, un microprocesor de GHz cu patru instrucțiuni în paralel poate executa la viteza maximă miliarde de instrucțiuni pe secundă și are cea mai mare valoare CPI de , sau IPC egală cu Dacă ne imaginăm că această conductă de microprocesor are cinci etape, atunci vor fi executate de instrucțiuni în orice moment Microprocesoarele moderne de înaltă performanță rulează de la sin la șase instrucțiuni pe ciclu de ceas Dar, de obicei, există multe restricții asupra tipurilor de instrucțiuni care pot fi executate în același timp și asupra evenimentelor care apar atunci când apar dependențe Pentru a implementa un procesor cu execuție paralelă a instrucțiunilor, sunt utilizate două metode, a căror principală diferență una de cealaltă constă în spread-zhlchѵѵаѵ rzbѵ thm între compilator și hardware Deoarece distribuția muncii este dictată de deciziile luate în mod static (adică, în timpul compilării) sau dinamic |n*times (adică, în timpul execuției), abordările acesteia sunt uneori denumite execuție paralelă statică și execuție paralelă dinamică vom vedea mai târziu, că ambele abordări au alte nume, mai comune, dar mai puțin precise sau mai limitate Există două responsabilități directe și specifice pe care conducta trebuie să le gestioneze rulând în paralel: Întocmirea unui pachet de instrucțiuni în sloturile de lansare Cum determină procesorul câte și ce instrucțiuni pot fi executate într-un anumit ciclu de ceas? În multe procesoare cu execuție paralelă statică, acest proces este lăsat cel puțin parțial în seama compilatorului, iar în proiectele de execuție paralelă dinamică, această problemă este de obicei tratată de procesorul în sala de execuție a programului, deși compilatorul va încerca adesea să crește frecvența de execuție a instrucțiunilor prin plasarea lor într-o ordine mai rațională Rezolvarea conflictelor de date și control: în cazul procesoarelor cu rulare paralelă statică, unele sau chiar toate consecințele conflictelor de date și control sunt eliminate static de către compilator În schimb, multe procesoare paralele dinamic încearcă să atenueze efectele cel puțin ale unor clase de conflicte prin exploatarea tehnologiilor hardware implicate în timpul execuției programului Deși toate acestea sunt prezentate în descrierile noastre ca abordări separate, de fapt, tehnicile utilizate într-o singură abordare sunt adesea Execuție paralelă statică O abordare a implementării unui procesor cu execuție paralelă a instrucțiunilor, în care multe decizii sunt luate de compilator chiar înainte ca programul să fie executat Running Paralel Dinamic O abordare a implementării unui procesor cu execuția paralelă a instrucțiunilor, în care procesorul ia multe decizii în timpul execuției programului Lansați sloturi Poziții din care instrucțiunile pot fi rulate într-un anumit ciclu de ceas, în mod analog, ele corespund pozițiilor blocurilor de start pentru sprint Paralelism și paralelism extins la nivel de instrucție W^:i sunt luate de o abordare diferită și este imposibil să afirmăm puritatea absolută a acesteia * o abordare diferită „înlăturarea presupunerii una dintre cele mai importante metode de obținere și exploatare a unui grad mai mare de grad la nivel de instrucție este construirea ghiciului, construirea ghiciului este o abordare care permite compilatorului sau Eessorului să „ghicească” proprietățile unei instrucțiuni, astfel încât să poată începe să completeze alte instrucțiuni care pot depinde de instrucțiune, a cărei soluție se construiește De exemplu, putem specula cu privire la rezultatul unei ramuri condiționate permițând instrucțiunilor care urmează acea ramură să fie pre-populate De asemenea, putem, de exemplu, să presupunem că salvarea înainte de încărcare nu se referă la același ■veterinar ceea ce va permite încărcarea să se facă înainte de salvare Dificultățile care apar la utilizarea ipotezei sunt că că poate fi greșit De aceea, orice mecanism de ghicire trebuie să includă atât o așteptare pentru a verifica dacă presupunerea a fost corectă, cât și o metodă de tratare a consecințelor - instrucțiuni realizat pe baza ipotezei Implementarea unor astfel de posibilități la revenirea la pozițiile de start complică construcția Guess poate fi aliniat de compilator sau hardware Pe de altă parte, compilatorul poate folosi guess pentru a reordona instrucțiunile, pentru a muta o instrucțiune printr-o instrucțiune de ramificare condiționată sau pentru a muta o instrucțiune de încărcare printr-o instrucțiune de stocare Hardware-ul procesorului poate efectua aceleași transformări în timpul execuției programului, folosind tehnologii care vor fi discutate mai târziu in aceasta sectiune Mecanismele de recuperare utilizate pentru presupunerile greșite variază foarte mult În cazul în care o ghicire este construită de software-ul trigramă, compilatorul inserează de obicei instrucțiuni suplimentare care verifică acuratețea ghicirii și oferă o rutină de ajutor de geniu de situație pe care să o folosească în cazul în care ghicitul eșuează Rezultatele acțiunilor întreprinse pe baza alocare, până atunci până când ești sigur că nu mai sunt conjecturale Dacă presupunerea a fost corectă, execuția instrucțiunilor este finalizată permițând ca conținutul bufferelor să fie scris în registre sau memorie Dacă presupunerea a fost greșită, hardware-ul șterge tampoanele și execută secvența corectă de instrucțiuni Construirea unei ipoteze introduce o altă problemă posibilă: ghicitul despre anumite instrucțiuni poate arunca excepții care nu s-au întâmplat înainte Sa spunem Guessing O abordare prin care compilatorul sau procesorul ghicește consecințele executării unei instrucțiuni pentru a le elimina în cazul în care acestea afectează execuția altor instrucțiuni Capitolul Procesor de exemplu, că o instrucțiune de încărcare a fost mutată pe baza unei presupuneri, dar dacă presupunerea este greșită, adresa folosită de acea instrucțiune este invalidă Rezultatul poate fi o excepție care nu ar fi trebuit să apară Problema este și mai complicată de faptul că, dacă ipoteza nu a fost făcută în legătură cu instrucțiunea de încărcare, atunci poate fi aruncată o excepție! Ipotezele construite de compilator rezolvă aceste probleme adăugând suport special pentru ipoteze, permițând astfel de excepții să fie ignorate până atunci până când este clar că ar trebui de fapt să se întâmple În ipoteza construită de hardware, excepțiile sunt pur și simplu stocate în tampon până când este clar că instrucțiunea care le-a cauzat nu mai este o presupunere și este gata să se termine; în acel moment se aruncă excepția și are loc procesarea ei normală Pentru că a ghici corect poate îmbunătăți performanța și în mod incorect poate reduce performanța, pentru a decide când să ghicească Se fac eforturi considerabile Restul acestei secțiuni va explora atât tehnicile statice, cât și cele dinamice de ghicire Pachetul de lansare Un set de instrucțiuni care rulează împreună pe același ciclu de ceas; pachetul poate fi preluat static de compilator sau dinamic de procesor Cuvânt de instrucție foarte lung (VLIW) Numele unui set de instrucțiuni care execută multe operații, definite independent unele de altele și considerate ca o singură instrucțiune extinsă care are de obicei multe câmpuri opcode separate Run Paralel Static Toate procesoarele paralele static folosesc un compilator pentru a ajuta la pachetul de instrucțiuni și la rezolvarea conflictelor Când utilizați un procesor declanșat static paralel, vă puteți gândi la un set de instrucțiuni care rulează la un anumit ciclu de ceas ca o explozie de rulare ca o instrucțiune mare cu operații multiple Această idee este dincolo de analogie Deoarece un procesor cu pornire paralelă static impune de obicei restricții cu privire la ce combinație de instrucțiuni poate fi rulată într-un anumit ciclu de ceas, este cel mai util să ne gândim la un lot de pornire ca la o singură instrucțiune care permite efectuarea simultană a mai multor operațiuni în anumite predefinite câmpuri Această vedere duce la un nume aparte pentru această abordare: Cuvânt de instrucție foarte lung (VLIW) Majoritatea procesoarelor paralele static se bazează, de asemenea, pe compilator pentru a-și asuma o anumită responsabilitate pentru rezolvarea conflictelor de date și control Responsabilitatea compilatorilor poate include predicția ramurilor statice și co-dispecerarea pentru a reduce sau a evita toate conflictele Înainte de a ne uita la utilizarea acestor tehnologii pe procesoare mai active, să ne uităm la o versiune statică simplă a procesorului MIPS Paralelism și paralelism extins la nivel de instrucție ^mmer: rulare paralelă statică = folosind arhitectura setului de instrucțiuni MIPS Pentru a arăta ce este execuția paralelă statică, ne vom uita la un procesor MIPS pro-* cu două instrucțiuni care rulează în paralel, unde o instrucțiune poate fi o operație ALU cu numere întregi sau un salt condiționat iar celălalt ar putea fi o instrucțiune de încărcare sau de stocare Acest design este similar cu cel utilizat în unele procesoare MIPS încorporate Rularea instrucțiunilor ■|i într-un singur ciclu de ceas ar necesita preluarea și decodarea a |,m rânduri de instrucțiuni În multe procesoare cu paralele statice Ъ ■ și în aproape toate procesoarele VLIW, formatul este simultan • numărul de instrucțiuni este limitat pentru a le face mai ușor de decodat și rulat, vom avea nevoie ca instrucțiunile să fie dublate și aliniate de de ori - p * "limită ry și astfel încât instrucțiunile pentru executarea ALU-ops sau salturi condiționate să urmeze mai întâi În plus, dacă o instrucțiune dintr-o pereche nu poate fi utilizată, trebuie înlocuită cu o instrucțiune goală - atunci Prin urmare * • Sunetele sunt întotdeauna declanșate în perechi, totuși unul dintre sloturi poate avea un sunet în el Primirea instrucțiunilor pe transportor este prezentată în perechi în Tabel *^ persoane Conductă cu lansare paralelă statică a două instrucțiuni în funcțiune Execuția simultană a instrucțiunilor AL U-operare și transfer de date În acest caz, presupunem utilizarea aceleiași conducte în cinci etape care a fost utilizată la rularea secvenţială a instrucţiunilor Deși nu este strict necesar, are o serie de avantaje, cum ar fi că încă scrie într-un registru la sfârșitul conductei, simplifică gestionarea excepțiilor și acceptă modelul exact de excepție, care devine considerabil mai complicat la procesoarele cu execuție paralelă a instrucțiuni Tip de instrucție Etape de conservare i% "structură AL U-operație sau ►salt condiționat IF Yu EX MEM WB Încărcați sau stocați instrucțiunile IF EX MEM WB % * Operațiune ALU sau structură de ramură condiționată IF EX MEM WB Încărcați sau stocați instrucțiunile IF EX MEM WB ALU instrucțiune de operare sau săritură condiționată IF Y EX MEM lv Încărcați sau stocați instrucțiunile IF EX MEM WB Instrucțiune ALU sau instrucțiune de salt condiționat IF ID EX MEM VLI Încărcați sau stocați instrucțiunile* IF ID EX MEM Capitolul Procesor Procesoarele paralele statice diferă în ceea ce privește modul în care gestionează datele potențiale și controlează conflictele În unele constructe, compilatorul își asumă întreaga responsabilitate pentru eliminarea tuturor conflictelor, programarea codului și inserarea instrucțiunilor nule, astfel încât execuția codului să nu necesite detectarea conflictelor sau întârzieri generate de hardware În alte modele, hardware-ul detectează conflicte de date și generează întârzieri între două pachete de pornire, solicitând totuși compilatorului să evite toate dependențele din cadrul instrucțiunii lara Dar chiar și în aceste condiții, conflictul determină de obicei întregul pachet de pornire care conține instrucțiunea dependentă să fie întârziat Apariția unor instrucțiuni mari, unice, constând din operațiuni multiple, accentuează întrebarea dacă software-ul ar trebui să se ocupe de toate conflictele sau dacă ar trebui să încerce doar să reducă proporția de conflicte între pachetele individuale de pornire Pentru acest exemplu, vom presupune că se aplică a doua abordare Declanșarea în paralel a operațiunilor ALU și a transferului de date necesită în primul rând hardware suplimentar în plus față de logica obișnuită de detectare a coliziunilor și de întârziere - porturi suplimentare în fișierul de registru (Figura ) două registre pentru operația de salvare, precum și un port de scriere pentru ALU operație și un port de scriere pentru operația de încărcare Deoarece ALU este legat de operațiunea ALU, vom avea nevoie și de un adunator separat pentru a calcula adresa efectivă pentru a transfera datele Fără aceste resurse suplimentare, conducta noastră care rulează două instrucțiuni în paralel va fi blocată de conflicte structurale Destul de evident că acest procesor care rulează două instrucțiuni în paralel poate aproape dubla performanța Dar acest lucru necesită de două ori mai multe instrucțiuni de executat în același timp, iar această suprapunere suplimentară crește penalitatea de performanță relativă din cauza conflictelor de date și de control utilizați rezultatele fără întârziere Într-o conductă cu două instrucțiuni care rulează în paralel și cinci etape, rezultatul unei instrucțiuni de încărcare nu poate fi utilizat în următorul ciclu de ceas Aceasta înseamnă că următoarele două instrucțiuni nu pot utiliza rezultatele încărcării fără întârziere În plus, instrucțiunile ALU care nu au folosit o întârziere într-o conductă simplă în cinci etape au acum o întârziere de utilizare de o instrucțiune, deoarece rezultatele nu pot fi utilizate în pereche încărcați instrucțiunile sau salvați pentru o utilizare eficientă Utilizați Întârziere Numărul de cicluri de ceas între o instrucțiune de încărcare și o instrucțiune care poate folosi rezultatul încărcării fără a opri conducta la ralanti paralelismul disponibil în procesoarele cu execuție paralelă a instrucțiunilor, sunt necesare compilatoare mai avansate sau tehnologii de expediere hardware, iar execuția paralelă statică a instrucțiunilor necesită ca acest rol să fie atribuit compilatorului Orez , Bloc de operare pentru executarea statică în paralel a două instrucțiuni Figura evidențiază hardware-ul suplimentar necesar pentru a rula două instrucțiuni în paralel, o memorie suplimentară de de biți de instrucțiuni, două porturi suplimentare de citire și un port suplimentar de scriere în fișierul de registru și încă un ALU top ALU are grijă de orice altceva Paralelism și paralelism extins la nivel de instrucție Capitolul Procesor Exercitiul Expediere simplă a codului atunci când rulați instrucțiuni în paralel Cum ați putea trimite următoarea buclă pentru o conductă statică care rulează două instrucțiuni MIPS în paralel? iooo Іы addu adauga "brie IO (K > JtO-jneww tu sim Câmpul S$ I adăugarea unui scalar din s IO O(Ssl) și salvarea rezultatului t Mjkn tot ce rămâne din buclă va fi patru copii ale fiecăreia * ragtruktsny II add și sw plus o instrucțiune addi și o instrucțiune bne Expanded dispatched ■M prezentat în Tabelul Implementarea compilatorului impune registre suplimentare (Stl DIN) Scopul acestui proces, care se numește redenumirea registrului, este un lanț de dependențe care nu sunt dependențe adevărate de date, dar sunt capabile să fie duce la potențiale conflicte, fie interferează cu capacitatea compilatorului de a trimite codul Să vedem cum ar arăta codul implementat dacă ar fi folosit doar registrul IO Ar conține cazuri repetate ale instrucțiunilor I și i) addu io JtO lsZ urmat de instrucțiunea sw to (isl>, dar acestea sunt aceleași, cu excepția cazului în care țineți cont de utilizarea registrului itO iar realitatea este independentă una de cealaltă între întreaga pereche a acestor instrucțiuni și următoarea „Perechea Gi nu există flux de date Această situație se numește aitndependență • Dependența de nume, adică o predestinare cauzată în mod explicit de numele redenumit, mai degrabă decât o dependență de date reală, care este numită și o dependență de intrare Înregistrările vvrenmsnomnis în timpul procesului de implementare permit compilatorului să pers "iti aceste instrucțiuni independente, în conformitate cu cea mai bună expediere a codului de redenumire ®a*miess, elimină dependențele de nume, păstrând în același timp caracteristicile reale Fii atent la asta ca din instrucțiuni și pikls sunt executate în perechi Patru itrapie de ■kl au opt cicluri de ceas, sau w> v Buclă nouă Loop add> $s Ssl - lw Sto OtSsl) I lw SU ($s ) Capitolul Procesor Tabelul (continuare) ALU sau instrucțiune de ramificare condiționată Instrucțiune de transfer de date Ciclu de ceas addu StOStO$s lw $ (Ssl) addu Stl Stl Ss lw Sl (Ssl) addu St St $s sw StO {Ss ) addu St St Ss sw St (Ss ) sw Sl , (Ss ) bne Ss Szero Loop sw St , iSs ) in Superheler Tehnologie avansată de transport permițând procesorului să execute mai mult de o instrucțiune pe ciclu de ceas prin selectarea instrucțiunilor în timpul execuției Iluminarea dinamică a conductei Suport hardware conceput pentru a schimba ordinea de execuție a instrucțiunilor pentru a evita munca inactivă Procesoare cu pornire dinamică paralelă Procesoarele cu rulare dinamică paralelă sunt cunoscute și sub denumirea de procesoare superscalare sau superscalare simple În cele mai simple procesoare superscalare, instrucțiunile sunt executate în ordine, iar procesorul decide câte instrucțiuni - zero, una sau mai multe - pot fi rulate în orice ciclu de ceas dat Este destul de evident că obținerea unor performanțe bune pe un astfel de procesor necesită totuși compilatorul să trimită instrucțiuni pentru a muta separat dependențele și astfel crește rata de rulare a instrucțiunilor Dar chiar și cu o astfel de dispeceră efectuată de compilator, între acest simplu superscalar și procesorul VLIW o diferență foarte semnificativă: hardware-ul garantează executarea corectă a codului, indiferent dacă a fost expediat sau nu Mai mult, codul compilat va funcționa întotdeauna corect, indiferent de rata de rulare paralelă sau de structura pipeline a procesorului În unele modele VIJW, acest lucru nu s-a întâmplat, iar recompilarea a fost necesară atunci când se deplasa între diferite modele de procesor; pe alte procesoare cu execuție paralelă statică, codul din diferitele analize ar funcționa corect, dar adesea atât de prost încât ar fi necesară o compilare mai eficientă Mulți superscalari extind structura de bază a deciziilor de execuție paralelă dinamică pentru a include programarea dinamică a conductelor - această programare alege exact ce instrucțiuni vor fi executate într-un anumit ciclu de ceas, încercând să evite conflictele și munca inactivă Să începem cu un exemplu simplu de rezolvare a conflictelor de date Luați în considerare secvența de cod: a Paralelism și paralelism extins la nivelul de instruire II și StO ($s ) adauga Stl STO St sud Ss S$ St slti St USD Chiar dacă subinstrucțiunea este gata pentru a fi executată, trebuie mai întâi să aștepte ca instrucțiunile I și addu să fie introduse care vă poate ocupa ciclurile de ceas cu memorie lentă (Capitolul discută despre accesările proaste la memorie care uneori pot cauza accesări foarte lente la memorie ) Expedierea dinamică a conductei poate evita parțial sau chiar poate evita astfel de conflicte Programare dinamică a conductelor ■În timpul expedierii dinamice a conductei, următoarele instrucțiuni executabile sunt selectate cu posibila lor rearanjare pentru a elimina mașina inactivă În astfel de procesoare, conducta este împărțită în trei blocuri principale: blocul de la-■chenny și instrucțiuni de pornire, mai multe funcționale blocuri (al căror număr în proiectele de înaltă performanță din a ajuns la una sau Câte zeci) și un bloc de transmisie Un model al unui astfel de design este prezentat în hg Primul bloc extrage instrucțiuni, le decodifică și trimite fiecare instrucțiune către blocul • ■funcţional corespunzător pentru execuţie J fiecare bloc de funcții are buffer-uri, numite rezerve, „operanzi și operații de prejudiciu (O alternativă la rezervările utilizate de multe procesoare moderne va fi discutată în secțiunea următoare ) Odată ce bufferul conține toți operanzii săi și blocul funcțional este gata să execute instrucțiunea, rezultatul este evaluat Când se primește un rezultat, acesta este este trimis la orice rezervare care așteaptă acel rezultat special, precum și în blocul de transfer care stochează rezultatul într-un buffer io tech până când sunt îndeplinite condițiile pentru a plasa rezultatul în siguranță într-un fișier de registru sau pentru a-l stoca în memorie Un buffer din blocul de trimitere, denumit adesea buffer de resecvențiere, este, de asemenea, folosit pentru a furniza operanzi, în același mod în care s-a făcut prin logica de redirecționare în conductele trimise static Odată ce rezultatul este trimis în fișierul regnet trebuie extras de acolo, ca într-un transportor convențional Combinația de operanzi tamponați în rezervare și rezultatele în buffer-ul de reordonare oferă un fel de redenumire a registrului, aproape la fel așa cum este folosit de compilator în exemplul nostru anterior de derulare a buclei Să vedem cum funcționează la nivel de concept: bloc de transmisie Un bloc de conducte dinamice fără ordine de execuție care decide când este sigur să eliberezi rezultatul unei operații la o sută de registre și memorie în vederea programelor* Rezervare Buffer în interiorul distracției „ciomaglio” al blocului, yara - operanzi și funcționare săraci Resecvențierea tamponului Un buffer care păstrează rezultatele în procesorul trimis dinamic până atunci până când devine posibilă stocarea acestor rezultate în memorie sau registru Capitolul Procesor Când o instrucțiune este preluată, aceasta este copiată în rezervarea blocului funcțional corespunzător De asemenea, orice operanzi disponibili în fișierul de registru sau în memoria tampon de recuperare a secvenței sunt imediat copiați acolo Instrucțiunile sunt stocate în tampon până când toți operanzii și blocul funcțional sunt disponibili Instrucțiunea executată nu mai are nevoie de o copie de registru a operandului, iar dacă acest registru este scris, valoarea poate fi suprascrisă Dacă operandul nu se află în fișierul de registru sau în memoria tampon de recuperare a secvenței trebuie să așteptați până când este produs de blocul funcțional Aceasta ține evidența numelui blocului funcțional care va produce rezultatul Când acest bloc produce în cele din urmă un rezultat, acel rezultat va fi copiat direct în rezervarea în așteptare din blocul funcțional, ocolind registrele Orez , Trei conducte principale de ■ purici cu dispecerare dinamică Ultimul pas al actualizării stării se mai numește și ieșire, sau eliberare Acești pași folosesc efectiv tamponul de resecvențiere și rezervare pentru a implementa redenumirea registrului Conceptual, o conductă cu programare dinamică poate fi reprezentată ca un Execuție cu resecvențiere Situație în execuție pipeline când o instrucțiune a cărei execuție este blocată nu determină așteptarea următoarelor instrucțiuni congestionarea structurii fluxului de date a programului Procesorul execută apoi instrucțiunile într-o ordine care păstrează structura fluxului de date al programului Acest stil de execuție se numește execuție post-modificare Paralelism și paralelism extins la nivel de instrucție ■foarte atent deoarece instrucțiunile pot fi executate în ordine greșită, ț■sea au fost preluate Pentru ca programele să se comporte la fel ca atunci când au fost executate pe conducta pro-vsh fără a modifica secvența, unitatea de preluare și decodare trebuie să ruleze instrucțiunile într-o ordine care vă permite să urmăriți ■exim și iar blocul de transfer trebuie să scrie rezultatele în registre şi memorie • în caseta de extragere a codului programului Acest mod conservator se numește *pass-in-order Prin urmare, dacă apare o excepție, com-ler-ul poate indica ultima instrucțiune executată și poate actualiza Juyt numai acele registre în care vor fi scrise prin instrucțiunile premergătoare instrucțiunii care a provocat excepție (conducta de preluare și de ieșire (transfer) rulează în mod ordonat, funcționalitățile sunt libere să inițieze execuția de îndată ce este necesar și datele sunt disponibile În prezent, toate conductele expediate dinamic ■se transferă pur și simplu în ordinea corectă Programarea dinamică este adesea extinsă pentru a include ipotezele aparatului în realitate și dispariția, în special în ceea ce privește rezultatele ”resetărilor” condiționate Prin prezicerea direcției ramificației condiționate, un procesor expediat dinamic poate continua să preia și să execute instrucțiuni în conformitate cu calea prezisă Deoarece rezultatele in-oruccmP sunt transmise în ordinea corectă, știm dacă întreaga ramură a fost prezisă corect înainte de a trece rezultatul oricărei instrucțiuni din calea f-lg ln O conductă care implementează ipoteze și programarea wild-card poate susține, de asemenea, ipoteze despre încărcarea rezonantă, permițând modificarea ordinii de execuție a instrucțiunilor de încărcare cu preluare și folosind un bloc de transfer pentru a înlocui ipotezele incorecte Ultima secțiune va discuta despre utilizarea programării dinamice de ghicire în proiectarea microprocesorului AMD Opteron X (Barcelona) Înțelegerea performanței programului Având în vedere că compilatorii pot reprograma execuția codului pentru a ocoli dependențele de date, s-ar putea întreba de ce algoritmii superscalari ar trebui să folosească dispecerare dinamică Există trei motive principale pentru aceasta În primul rând, nu toate întârzierile inactiv sunt previzibile În special, lipsa datelor potrivite în cache (vezi capitolul ) duce la o latență imprevizibilă Programarea dinamică permite procesorului să ascundă unele dintre aceste întârzieri continuând să execute instrucțiuni în timp ce întârzierea expiră În al doilea rând, dacă procesorul presupune care vor fi rezultatele ramurilor condiționale folosind predicția lor dinamică, nu poate cunoaște ordinea specifică a instrucțiunilor în timpul compilării, deoarece depinde de predict la real Transferați în ordinea corectă Un transfer în care rezultatele execuției pipeline sunt scrise în structuri vizibile pentru programator în aceeași ordine în care au fost preluate instrucțiunile Capitolul Procesor comportamentul salturilor condiționate Permiterea ghicirii dinamice pentru a obține paralelism la nivel de instrucție (ILP) mai mare fără a permite dispecerarea dinamică va limita sever beneficiile obținute în urma ghicirii În al treilea rând, pe măsură ce latența conductei și lățimea de execuție a instrucțiunilor se modifică de la implementare la implementare, se modifică și cea mai bună modalitate de a compila o secvență de apel De exemplu, cum să planificați o secvență de cod constând din instrucțiuni interdependente, ținând cont atât de influența lățimii de rulare, cât și a întârzierii conductei? Structura conductei afectează atât numărul de derulări în bucle pentru a elimina întârzierile, cât și procesul de redenumire a registrului compilatorului Programarea dinamică permite hardware-ului să ascundă majoritatea acestor detalii Astfel, utilizatorii și distribuitorii de software nu trebuie să-și facă griji că au nevoie de mai multe versiuni ale programului pentru diferite implementări ale aceluiași set de instrucțiuni Împreună cu aceasta, vechiul cod moștenit va beneficia cel mai mult de pe urma noii implementări, fără a fi nevoie să-l recompileze Vedere generala Canalizarea și execuția paralelă a instrucțiunilor măresc debitul maxim al instrucțiunilor și încearcă să exploateze paralelismul la nivel de instrucțiune (I I P) Dar interdependențele care apar în accesarea datelor și în controlul fluxului de execuție a programului impun o limită superioară a performanței durabile, deoarece procesorul trebuie uneori să aștepte ca interdependențele să se rezolve Abordări bazate în principal pe metode programatice de utilizare a ILP se bazează pe capacitatea compilatorului de a detecta și atenua efectele unor astfel de interdependențe, în timp ce abordările bazate pe hardware depind de extensiile pipeline și de mecanismele de rulare a instrucțiunilor Ipotezele făcute de compilator sau hardware pot crește nivelul de utilizare potențială a ILP, deși ar trebui să fie utilizate cu precauție, deoarece ipotezele incorecte duc cel mai adesea la degradarea performanței Interfață hardware și software Microprocesoarele moderne de înaltă performanță sunt capabile să ruleze mai multe instrucțiuni simultan într-un singur ciclu de ceas; din păcate, atingerea acestei rate de lansare a instrucțiunilor este o sarcină foarte dificilă De exemplu, deși există procesoare care rulează patru până la șase instrucțiuni în paralel pe ciclu de ceas, foarte puține aplicații pot suporta rularea a mai mult de două instrucțiuni în paralel pe ciclu de ceas Acest lucru se datorează a două motive principale Paralelism și paralelism extins la nivel de instrucție Іх În cadrul conductei, blocajele majore ale performanței apar din dependențe care nu pot fi eliminate, reducând astfel complexitatea instrucțiunilor și rata de rulare susținută Deși este destul de dificil să te ocupi de coloana vertebrală de date reale, compilator sau hardware? știi exact dacă o astfel de dependență există sau nu și, prin urmare, trebuie să considere în mod pozitiv că dependența există De exemplu, cod în care pointerii sunt confortabili, mai ales în moduri în care aliasing-ul poate duce, va duce la mai multe dependențe potențiale ascunse Dimpotrivă, folosirea matricelor în mod mai sistematic vă permite să deduceți că nu există dependențe În mod similar, condițional s care nu poate fi prezis cu precizie în timpul pro-run sau în timpul compilării va limita utilizarea ILP există posibilitatea creșterii în continuare a nivelului LP, dar domeniul de aplicare al compilatorului sau al echipamentului de căutare II P, care ar putea fi izolat într-o anumită măsură (uneori prin rularea mai multor mii de zile), este limitat s defecțiuni ale sistemului de memorie (care se dezvăluie că limitează și capacitatea de a menține sistemul de memorie complet încărcat Unele întârzieri legate de sistemul de memorie pot fi ascunse, scalarea nivelului ILP limitează, de asemenea, spațiile în care astfel de întârzieri pot fi săpate Eficiență energetică și conducte avansate Un factor care contribuie la creșterea utilizării paralelismului la nivel de structură prin lansare paralelă dinamică și pre-căptușeală este eficiența energetică redusă Fiecare inovație ar putea implica mai mulți tranzistori, ceea ce a dus la o scădere semnificativă a eficienței energetice Și acum, când lovim de peretele barierei de nămol, luăm în considerare modele care conțin mai multe ^procesoare simultan pe un singur cip, unde procesoarele nu sunt atât de profund conectate și nu atât de agresive în ceea ce privește ipotezele de construcție, ca predecesorii lor Există ideea că procesoarele mai simple nu sunt la fel de „jucabile” ca și omologii lor mai complexe, dar oferă o performanță mai bună per watt, astfel încât pot oferi o performanță mai bună pe cip atunci când instrucțiunile sunt limitate mai mult de puterea termică decât de numărul de tranzistoare În tabel Figura arată numărul de etape de conductă, lățimea de rulare, nivelul de estimare, viteza de ceas, nuclee pe cip și consumul de energie al unor microprocesoare fi atent la Capitolul Procesor reducerea numărului de etape de conductă și a consumului de energie atunci când companiile trec la proiecte multi-core Tabelul Date de la Intel și Sun Etapele conductei Pentium nu includ etapele de transfer Dacă ar fi activate, conductele Pentium ar merge și mai adânc Microprocesor An Frecvență reală Număr de etape de conductă Lățimea de rulare Schimbarea secvenței și ipoteza Numărul* de nuclee sau cipuri Capacitate Intel MHz Hei W Intel Pentium MHz nr W Intet Pentium Pro MHz Da W Intel Pentium Wlllamette MHz Da W Intel Pentrum Prescott MHz Da V" Intel Core MHz Motor W Sun UttraSPARC III MHz Nu W Sun UttraSPARC TI (Niagara) MHz Nu V" Clarificare Blocul de transfer gestionează actualizările de registru și fișiere de memorie Unele procesoare cu dispecerare dinamică actualizează fișierul de registru imediat în timpul execuției instrucțiunii, folosind registre suplimentare pentru a implementa funcția de redenumire și păstrând vechea copie a registrului PÂNĂ când instrucțiunea de actualizare a registrului nu mai este de așteptat să fie executată Alte procesoare tamponează rezultatul, de obicei într-o structură numită buffer de resecvență, iar actualizarea reală a fișierului de registru are loc mai târziu, ca parte a transferului, vezi capitolul ), sau bufferul de reordonare Blocul de trimitere permite unei instrucțiuni de stocare să scrie în memoria tampon atunci când bufferul are adresa și datele corecte și când instrucțiunea de stocare nu mai depinde de salturile condiționate prezise Clarificare Accesul la memorie beneficiază de cache-uri neblocante care continuă să deservească accesările cache-ului atunci când memoria cache este învechită (vezi Capitolul ) Procesoarele de resecvențiere au nevoie de un dispozitiv de cache care să permită executarea instrucțiunilor atunci când datele corecte sunt în afara memoriei cache Hardware real: conductă AMD Opteron X (Barcelona) Autotestare flhf Înveselește-te dacă următoarele tehnologii sau componente sunt legate fundamental de abordările software sau hardware ale utilizării ILP În unele ceaiuri, răspunsul se poate referi la ambele abordări Pro punând un salt condiționat Începutul ceremonial al instrucțiunilor C C prinde instrucțiuni foarte lungi - VL W W suprascalar J Programare dinamică Executarea cu modificarea secvenței instrucțiunilor Făcând presupuneri fi Buffer de recuperare a secvenței S Redenumirea registrelor Hardware real: conductă AMD Opteron X (Barcelona) L* și în majoritatea computerelor moderne, microprocesoarele x utilizează abordări destul de complexe ale pipeline-ului Dar aceste procesoare încă se confruntă cu provocarea de a implementa setul complex de instrucțiuni x discutat în Capitolul Produsele AMD și Intel extrag regulile x și le traduc în instrucțiuni interne asemănătoare MIPS, pe care AMD le numește operațiuni RISC (Rops) și Intel - microoperațiuni Opsracinul RISC este apoi executat printr-o programare dinamică de ultimă generație și o conductă de ghicire pentru a se asigura că AMD Opteron XI (Barcelona) are o rată de execuție de trei operațiuni RI SC pe ciclu de ceas Această secțiune este despre conducta de migrare RISC Când luăm în considerare procesoarele complexe cu dispecerare dinamică, proiectarea sistemului de gestionare a blocurilor funcționale, a fișierului cache și a registrului, execuția instrucțiunilor și a conductei în ansamblu devine foarte complicată, ceea ce face dificilă separarea unității de operare de conductă Din acest tipar, mulți ingineri și cercetători au adoptat termenul de microarhitectură pentru a se referi la arhitectura internă detaliată Figura prezintă microarhitectura X concentrat pe structuri pentru efectuarea operațiunilor RISC Un alt mod de a privi X este să te uiți la etapele conductei prin care trece o instrucțiune tipică Pe fig arată structura conductei și numărul tipic de cicluri de ceas consumate, care microarhitectura Organizarea procesorului, inclusiv principalele blocuri funcționale, relațiile și managementul acestora Capitolul Procesor desigur variază în funcție de natura programării dinamice, precum și de cerințele operațiunilor individuale RISC Orez , Miyaroarchitectura AMD Opteron X cozile mari permit până la ’ operațiuni AlSC, inclusiv până la de operațiuni întregi, până la de operațiuni cu virgulă mobilă sau SSE și până la de operațiuni de încărcare și stocare să fie lăsate în urmă Blocurile de încărcare și stocare sunt de fapt împărțite în două părți , primul dintre care se ocupă cu calculul adresei în ALU-uri întregi iar al doilea este direct responsabil pentru accesul la memorie Între blocurile funcționale există o rețea extinsă de conexiuni paralele, deoarece conducta este dinamică, nu este de natură statică, ocolirile sunt efectuate prin marcarea (etichetarea) rezultatelor și urmărirea operanzilor sursei, permițându-vă să obțineți o potrivire în cazul în care rezultatul este produs pentru o instrucțiune într-una dintre cozile care au nevoie de acest rezultat Hardware real: conductă AMD Opteron X (Barcelona) LgB*R ••e , Imaginea ia Opteron X promovarea unei instrucțiuni tipice ■ numărul de cicluri de ceas pentru pașii principali dintr-o conductă care are etape în linii întregi ■ Operații RISC Coada de execuție a instrucțiunilor pentru numerele în virgulă mobilă este formată din etape de îndeplinire operațiuni RISC clarificare Opteron X utilizează o schemă de rezoluție a erorilor antidependență* care utilizează un buffer de recuperare semi-pozitiv împreună cu redenumirea registrului Această redenumire are un efect direct asupra redenumiri registrelor arhitecturale disponibile în procesor (ii în cazul utilizării versiunii pe de biți a arhitecturii x ) la un număr mare de registre fizice ( în X ) Redenumirea registrelor este utilizată în X pentru a elimina antidependența Este necesar ca procesorul să mențină o mapare între registrele arhitecturale și cele fizice, indicând care registru fizic este cea mai actualizată copie a registrului arhitectural Ținând evidența redenumirilor în desfășurare, redenumirea registrului oferă încă o altă abordare a recuperării în cazul unei presupuneri incorecte: o revenire tot mai mare a mapărilor care au avut loc de la începutul execuției instrucțiunii care a fost ghicit incorect Acest lucru va cauza starea procesorului pentru a reveni la ultima instrucțiune executată corect, păstrând în același timp maparea corectă între registrele arhitecturale și fizice Autotestare Următoarele afirmații sunt corecte: Transportor Opteron X având proprietatea de execuție paralelă, execută direct instrucțiuni x X folosește programarea dinamică, dar nu presupune ipoteze Microarhitectura X are mult mai multe registre decât necesită x |Rd|=Pe' (Rs)*Pei (Rt) ■ Іи Rt OffS(Rș) Per |Ні|-Г)amyaіb(Рі |RsJ»CMem| [ ] Care vor fi pentru aceste instrucțiuni valorile semnalelor generate de unitatea de comandă prezentată în fig ? [ ] Ce resurse (blocuri) îndeplinesc o funcție utilă pentru instrucțiunile jasper? [ ] Ce resurse (blocuri) produc datele de ieșire utilizate pentru aceste instrucțiuni? Ce resurse nu produc date din mers pentru această instrucțiune? Diferite blocuri de execuție și blocuri logice digitale au indicatori diferiți ai latenței (timpul de care au nevoie pentru a finaliza munca) Figura prezintă șapte varietăți ale blocurilor principale Latența blocului în funcție de calea critică (cea mai lungă) pentru o instrucțiune determină latența minimă a instrucțiunii respective Pentru celelalte trei probleme din acest exercițiu, presupuneți următoarele măsuri de latență a resurselor: ? Memorie de instrucțiuni (I-Mmp) Adder (Add) Multiplexer (Mux) ALU (ALU) Register File (Rege) Data Memory (D-Mem) Control Unit (Control) a nc nc nc nc nc nc nc la nc nc nc nc nc nc nc | ] Care este calea critică pentru o instrucțiune MIPS AND? [ ] Care este calea critică pentru o instrucțiune de încărcare MIPS (LD)? [ ] Care este calea critică pentru o instrucțiune MIPS BEQ? Exercițiul Implementarea de bază MIPS cu un singur ciclu din fig este capabil să urmeze doar unele instrucțiuni Noi instrucțiuni pot fi adăugate la arhitectura existentă a setului de instrucțiuni, dar decizia de a face acest lucru depinde, printre altele, de costul și complexitatea unor astfel de completări la unitatea de operare și la unitatea de control al procesorului Primele trei probleme din acest exercițiu se referă la următoarea afirmație nouă: Instruire și interpretare a „DIN Rd Rs Rt Rx Per(Rd|*Pec[Rs]*Pe Care dintre blocurile disponibile (dacă există) pot fi folosite pentru această instrucțiune? ] Ce blocuri funcționale noi (dacă există) sunt necesare pentru această instrucțiune? Capitolul Procesor [ ] Ce semnale noi sunt necesare (și sunt necesare) de la unitatea de control pentru a sprijini această instrucțiune? Atunci când proiectanții de procesoare iau în considerare posibile îmbunătățiri ale unității de operare a procesorului, deciziile depind de obicei de cost/performanță Următoarele trei sarcini presupun că începem prin a folosi blocul de operare prezentat în Fig , unde blocurile de memorie de instrucțiuni (І-Mem), sumatorul (Add), multiplexorul (Mih), ALU (ALU) fișierul de registru (Regs), memoria de date (D-Mem) și controlul (Control) au valori de latență de ps, respectiv ps ps, ps, ps, ps și ps iar indicatorii de cost sunt , , respectiv Celelalte trei sarcini din acest exercițiu se referă la următoarea îmbunătățire a procesorului: Îmbunătățirea latenței cost beneficiu a Adunator de mare viteză ps pentru blocuri de adunare ♦ pentru blocuri de adunare Înlocuiți blocurile de adunare existente cu altele mai rapide Fișier registru extins ♦ Lungime fișier registru ps ♦ Lungime fișier registru Salvarea și restaurarea valorilor registrului va necesita mai puține încărcări și salvări Acest lucru se traduce printr-o reducere cu cinci procente a numărului de instrucțiuni ( ] Care este durata ciclului ceasului cu și fără această îmbunătățire? [ ] Ce fel de accelerare se va obține prin adăugarea acestei îmbunătățiri? [ ] Comparați raportul cost/performanță cu și fără această îmbunătățire Exercițiul Sarcinile din acest exercițiu se referă la următorul bloc logic: Bloc logic o memorie mică de instrucțiuni de patru cuvinte de opt biți b Un bloc mic de fișiere de registru format din două registre de opt biți [ ] Acest bloc logic conține numai circuite logice, numai bistabile sau ambele? ( ] Arătați cum poate fi implementat acest bloc Utilizați numai elemente AND, OR, NOT și D Exercițiul ( ] Repetați exercițiul , dar toate porțile AND și SAU utilizate trebuie să aibă două intrări Costul și latența logicii digitale depind de tipurile de acces de bază x elemente logice și de proprietățile acestor elemente Restul de trei sarcini din această expresie se referă la următoarele elemente logice, indicatori de latență și cost: NU Două intrări SAU și ȘI Fiecare intrare suplimentară pentru elementul ȘI SAU □ Costul latenței Costul latenței Cost Bridge Costul latenței Costul latenței a ps ps ♦Ops ♦ PS la ps ps + ps ♦ ps ] Care este latența implementării dvs din exercițiul ? ( ] Care este costul implementării dvs din exercițiul ? ( ] Modificați designul pentru a minimiza latența și apoi pentru a minimiza costul Comparați costul și latența acestor două modele optimizate Exercițiul Când implementați o expresie logică în logica digitală, trebuie să folosiți porțile logice disponibile pentru a implementa un operator pentru care poarta logică nu este potrivită Sarcinile din acest exercițiu se referă la următoarele expresii logice: Semnal de control Semnal de control a (((A SAU B) SAU C) SAU (A ȘI C)) SAU (A ȘI B) (A SAU B) SAU C b (((A SAU B) XOR C) SAU (A SAU Cp SAU (A ȘI B) AI B | | Creați un circuit logic pentru semnalul de control Circuitul dumneavoastră ar trebui să evalueze direct expresia dată (nu reorganizați expresia pentru a o „optimiza”) folosind porți NOT și porți AND, OR și XOR cu două intrări [ ] Presupunând că toate porțile au aceeași latență, care este lungimea (în porți) a căii critice din circuitul dumneavoastră din Exercițiul ? ( ] Când implementați mai multe expresii booleene, puteți economisi costuri folosind aceleași semnale în mai multe expresii Faceți din nou exercițiul , dar acum implementați ambele semnale de control, și , și încercați a folosi circuite „comune” între Capitolul Procesor expresii acolo unde este posibil Pentru celelalte trei probleme din acest exercițiu, imaginați-vă că avem următoarele elemente logice digitale de bază, prezentate mai jos, cu următorii indicatori de latență și cost: NU bidirecțional și bidirecțional SAU bidirecțional XOR Patent- Stand- Patent- Stoma Patent- Stand- Lateit- Stoma- POD pod noet pod POD MOSG POD pod a ps ps ps ps b ps ps ps ps ] Care este lungimea căii critice din circuitul dumneavoastră din exercițiul ? ] Care este costul schemei dumneavoastră din exercițiul ? ] Care este procentul de cost economisit în circuitul dumneavoastră din Exercițiul prin implementarea acestor două semnale de control împreună și nu separat? Exercițiul Scopul acestui exercițiu este de a vă ajuta să vă familiarizați cu proiectarea și funcționarea circuitelor logice secvențiale Sarcinile din acest exercițiu se referă la următoarea operațiune ALU; Operațiuni ALU o Adăugarea unuia (X' ) b Sdaii la stânga cu două cifre (X " ) ( ] Construiți un circuit cu intrări de date de bit și ieșire de date de bit care efectuează această operație secvenţial, începând cu bitul cel mai puțin semnificativ Într-o implementare în serie, circuitul procesează operanzii de intrare bit cu bit, generând biți de ieșire unul după altul De exemplu, circuitul AND secvenţial este o poartă AND simplă, într-un ciclu de N îi dăm bitul hi-th de la fiecare operand și obținem al N-lea bit al rezultatului În plus față de intrările de date, circuitul are o intrare Clk (ceas) și o intrare "Slart", care este setată la numai la primul ciclu al operației Puteți utiliza elemente D și elemente logice NU, ȘI , OR și XOR în designul dvs | Repetați exercițiul , dar acum faceți un circuit care efectuează această operație pentru două cifre deodată Pentru restul acestui exercițiu, să ne imaginăm că avem la dispoziție următoarele elemente logice digitale de bază, cu următoarele măsuri de latență și cost: - Exerciții NOT și OR XOR -element Cost latență Cost latență Cost latență Cost latență Cost latență ps ps ps ps ps ps ps ps ps ps Ora specificată pentru elementul D este ora la care a fost setată Intrarea datelor de declanșare trebuie să aibă valoarea unității dorită la ora stabilită înainte de trecerea marginii pulsului de ceas (sfârșitul ciclului de ceas), ceea ce va permite stocarea acestei valori în declanșator [ ] Cât de lung ar fi ciclul ceasului pentru circuitul pe care l-ați făcut și exercițiul , , ? Cât timp va dura pentru a finaliza operarea • biţi? [ î Care este timpul ciclului de ceas pentru circuitul pe care l-ați realizat în exercițiul ? Ce accelerare se va obține prin utilizarea acestui circuit în locul circuitului desenat în Exercițiul pentru o operație pe de biți? ( ] Calculați costul pentru circuitul desenat în Exercițiul și apoi pentru circuitul desenat în Exercițiul [ ] Comparați raportul cost/performanță pentru cele două scheme întocmite în Exercițiile și Pentru aceste sarcini, performanța circuitului este reciproca timpului necesar pentru a finaliza o operație pe de biți Exercițiul Sarcinile din acest exercițiu presupun că blocurile logice necesare pentru implementarea unei unități de operare procesor au următoarele valori de latență: Memorie de instrucțiuni (I-MStl) Adder (JM) Multiplexor (Mix) ALU (ALU) Fișier de înregistrare Memoria Danimx ( -Met) Expansor de semne (Slgn-ortend) Bloc de deplasare la stânga cu două (SMH-stânga- ) a ps ps ps ps ps ps ps PS b ps ps ps ps ps ps ps ps ] Care ar trebui să fie perioada ciclului de ceas dacă procesorul trebuie doar să preia instrucțiuni consecutive (vezi Figura )? { ) Se consideră un bloc de operare ca cel prezentat în fig dar pentru un procesor care are un singur tip de instrucțiune: Capitolul Procesor salt necondiționat legat de valoarea contorului de programe (PC) Care ar fi durata ciclului de ceas pentru un astfel de bloc operațional? [ ] Repetați exercițiul , dar acum cu nevoia de a suporta doar salturi condiționate legate de valoarea contorului programului (PC) Celelalte trei sarcini ale acestui exercițiu se referă la următorul bloc logic (resursa) al blocului operațional Resursă a Apendicele (la valoarea RS) b Memorie de date [ ] Ce tip de instrucțiuni necesită această resursă? [ ] Pentru ce tip de instrucțiune (dacă există) această resursă se află pe calea critică? [ ] Să presupunem că numai instrucțiunile beq și add sunt acceptate Explicați modul în care modificările latenței specificate a acestor resurse afectează durata ciclului de ceas al procesorului, presupunând că latența altor resurse nu se modifică Exercițiul În acest exercițiu, vom explora modul în care latența componentelor individuale ale unui bloc operațional afectează timpul ciclului de ceas al întregului bloc operațional și modul în care aceste componente sunt utilizate de instrucțiuni Pentru sarcinile din acest exercițiu, veți folosi următoarele măsuri de latență pentru circuitele logice ale unității de operare: Memorie de instrucțiuni ( -Mat) Adder (Add) Multiplexer (Mim) ALU (ALU) Register File (Aedc) Data Memory (D-Mem) Sign Extender (Sign-axtand) Left Shift Unit by Two (Shtft-lett- ) a ps os ps ps ps os ps Ops b ps os ps ps ps ps ps ps [ ] Cât de lung ar fi ciclul de ceas dacă ar trebui suportat un singur tip de instrucțiune legată de ALU (adăugați și etc )? [ ] Cât de lung ar fi ciclul ceasului dacă ar fi acceptate numai lw instrucțiuni? [ ] Cât de lung ar fi ciclul de ceas dacă ar suporta instrucțiuni add, beq, lw și sw? Pentru restul sarcinilor din acest exercițiu, presupuneți că nu există întârzieri în conductă și că instrucțiunile care urmează să fie executate sunt distribuite după cum urmează: Exercițiul add addi noi twq tw |W % % % % % % % % % % % % [ ] Ce procent din toate ciclurile utilizează memoria de date? [ ] În ce proporție din toate ciclurile ar trebui utilizată intrarea în schema de extensie a semnelor? Ce face acest circuit în cicluri în care nu este nevoie de intrarea sa? [ ] Dacă este posibil să se îmbunătățească scorul de latență al uneia dintre componentele back-end ale unei unități de operare cu %, care componentă ar trebui să fie aleasă? Care va fi accelerarea din această îmbunătățire? Exercițiul La fabricarea cipurilor de siliciu, defectele materiilor prime (de exemplu siliciul) și erorile de fabricație pot duce în cele din urmă la circuite defecte Un defect foarte comun este atunci când un conductor afectează aspectul unui semnal într-un alt conductor Acest lucru se numește diafonie O clasă specială de diafonie este cazul când semnalul este conectat la un conductor pe care este setată o valoare logică constantă (de exemplu, la un conductor de alimentare) Într-un astfel de caz, avem de-a face cu o eroare precum un zero constant sau unul constant, iar semnalul afectat are o valoare logică de sau, respectiv, Următoarele sarcini se referă la semnalul prezentat mai jos în Fig : Smgnal o memorie de instrucțiuni Instrucțiune de ieșire, bit Unitate de control, ieșire MemtoReg [ ] Să presupunem că procesorul este testat prin completarea contorului de programe (PC), a registrelor și a memoriei de date și instrucțiuni cu o anumită valoare (la alegere), permițând executarea unei singure instrucțiuni, apoi citirea contoarelor de programe, blocurilor de memorie și registrelor Aceste valori au fost apoi verificate pentru a vedea dacă a existat o anumită eroare Puteți proiecta un test (veniți cu valori pentru PC blocuri de memorie și registre) care să determine prezența unei erori constante zero pe un anumit semnal? [ ] Repetați exercițiul pentru o eroare constantă Puteți utiliza un singur test atât pentru erorile constante zero, cât și pentru constante unu? Dacă da, explicați cum; dacă nu, explicați de ce [ ] Dacă știm că un procesor are o eroare constantă pentru un semnal dat, procesorul poate fi considerat încă utilizabil? Pentru ca acesta să fie util, trebuie să avem Capitolul Procesor capacitatea de a converti orice program care rulează pe un procesor normal MI P la un program care rulează pe acel procesor Putem presupune că nu există suficientă memorie liberă pentru instrucțiuni și memorie de date pentru a face programul mai lung și pentru a stoca date suplimentare Sugestie: Un procesor este utilizabil dacă fiecare instrucțiune „distrusă” de această eroare poate fi înlocuită cu o secvență de instrucțiuni „de lucru” care produc un efect similar Următoarele sarcini fac referire la eroarea prezentată mai jos: Greşeală o unitate constantă b Apariția unui zero dacă instrucțiunea [ - ] are zerouri în toți biții, iar absența unei erori în caz contrar ] Repetați exercițiul , dar acum încercați testați această eroare în semnalul de control MemRead ) Repetați exercițiul , dar acum încercați să testați această eroare în semnalul de control Salt ] Folosind testul unic descris în Exercițiul , putem testa erori în mai multe semnale diferite, dar de obicei nu toate Descrieți o serie de teste care detectează această eroare pe toate ieșirile multiplexorului (fiecare bit de ieșire de la fiecare dintre cele cinci multiplexoare) Încercați, dacă este posibil, să faceți acest lucru cu mai multe teste constând dintr-o singură declarație Exercițiul În acest exercițiu, veți afla cum funcționează un bloc operațional cu un singur ciclu pentru o anumită instrucțiune Sarcinile din acest exercițiu fac referire la următoarea instrucțiune MIPS: Instruire și , dolari lw (S ) Labei: bne $ ,$ Labei ] care ar fi sensul cuvântului de instrucție? ] Care ar fi numărul de registru furnizat la intrarea fișierului de registru „Register I Readable”? Se citește cu adevărat acest registru? Cum rămâne cu intrarea Readable Register ? ] ] Care ar fi numărul de registru furnizat la intrarea fișierului de registru „Register Written”? Sunt de fapt date scrise în acest registru? Exercițiul Instrucțiuni diferite necesită setarea unui control diferit de engna-k>in în blocul de operare Restul sarcinilor din acest exercițiu se referă la cele două semnale de gravare din Fig : g L Semnal de control Semnal de control l RegDst MemRead b U RegW Desen pentru blocul de operare prezentat în fig schema logică a acelei părți a unității de control care expune doar primul semnal Să presupunem că trebuie doar să acceptăm instrucțiunile lw, sw, beq, add și J (sărire) | | faceți exercițiul din nou, dar pentru a seta ambele semnale Exercițiul În acest exercițiu, veți explora modul în care ciclul de ceas al procesorului afectează designul unității de control și invers Problemele din acest exercițiu presupun că blocurile logice utilizate pentru implementarea blocului de operare au următoarele valori de latență: Memorie de instrucțiuni ( -Mt) Adder (Add) Multiplexer (Mia) ALU (ALU) Fișier de înregistrare Memoria de date (D-Mom) Ziaa expander (Slgn-ertend) Bloc de deplasare la stânga cu două (znt-left- ) Bloc control - ALU (A U CM) a ps ps ps ps ps ps ps ps ps b ps ps ps ps ps ps ps ps ps [ ] Cât timp ar trebui să dureze unitatea de control pentru a genera semnalul MemWrite astfel încât calea critică a blocului de operare prezentat în Fig ? [ | Ce semnal de control din Fig necesită cel mai mult timp pentru a fi generat și care ar trebui să fie acest indicator pentru unitatea de control dacă vrei să eviți prezența acestei generații pe calea critică? | | Emiterea care dintre semnalele de control din fig este cel mai critic din punct de vedere al timpului și cât timp ar trebui să ia unitatea de control pentru a-l genera, astfel încât acest proces să nu cadă pe calea critică? Pentru sarcinile rămase ale acestui exercițiu, se presupune că timpul necesar unității de control pentru a genera semnale de control individuale are următorii indicatori: Capitolul Procesor RegOst Jump Branch MamRead MetoReg ALUOp MeWrite ALUSrc RegWrlte a ps ps ps ps ps ps ps ps ps b ps ps ps ps ps ps ps ps ps ( ] Cât va dura ciclul de ceas al procesorului? ( ] Dacă este posibil să accelerați generarea semnalelor de control, dar costul întregului procesor crește cu un dolar pentru fiecare creștere a vitezei unui singur semnal de control cu ps, ceea ce semnale de control veți accelera generarea de semnale de control pentru a maximiza performanța și prin Care ar fi costul (pe procesor) al acestei creșteri de performanță? ( ] Dacă procesorul este deja prea scump, atunci în loc să plătim pentru a-l accelera, așa cum sa făcut în exercițiul , dorim să minimizăm costul fără a reduce viteza procesorului logică mai lentă, economisind USD pentru adăugarea unui plus de ps la latența unui singur semnal de control, ce semnale de control ați împiedica să genereze și cu cât ar scădea costul procesorului fără a-i reduce viteza? Exercițiul În acest exercițiu, veți învăța în detaliu cum este executată o instrucțiune într-un bloc operațional cu un singur ciclu Sarcinile din acest exercițiu se referă la ciclul de ceas în care procesorul preia următorul cuvânt de instrucțiune: Cuvânt de instrucție a b ( ) Care vor fi datele de ieșire ale blocului de extensie a semnului și ale blocului de tranziție „Shift left by two” (în colțul din stânga sus al Fig ) după acest cuvânt de instrucțiune? ( ] Care vor fi valorile la intrările de control ale ALU-urilor pentru această instrucțiune? ( ] Care va fi noua adresă în contorul de programe (PC) după executarea acestei instrucțiuni? Pentru restul sarcinilor din acest exercițiu, se presupune că memoria de date este umplută cu toate zerourile, iar înregistrările procesorului din capul porecla de extragere a cuvântului de instrucțiune prezentat mai sus au următoarele valori: Exercițiul [ ] Afișați pentru fiecare multiplexer MIX valorile datelor sale asemănătoare la momentul în care a fost executată această instrucțiune, precum și valorile acestor JI*et] și*v [ ] Care vor fi valorile de intrare pentru ALU și cei doi sumatori? [ ] Care vor fi valorile pe toate intrările pentru blocul „Registre”? Exercițiul În acest exercițiu, veți explora efectul pipeline-ului asupra duratei ciclului de ceas al procesorului Pentru sarcinile acestui exercițiu, se presupune că etapele sale individuale din blocul operațional au următorii indicatori de latență: IF IO EX MEM WB L ZOO ps ps inchi ps ps b ps ps ps ps ps [ ] Care este durata ciclului pentru un procesor pipeline și non-pipeline? [ ] Care va fi latența totală a instrucțiunii lw într-un procesor pipeline și non-pipeline? [ ] Dacă putem împărți o etapă a unei operațiuni pipeline în două noi, fiecare cu jumătate din latența etapei originale, ce etapă ați împărți și care ar fi noua durată de ceas? ? Pentru restul sarcinilor din acest exercițiu, presupuneți că instrucțiunile executate de procesor au următoarea distribuție procentuală: ALU b«q - BW a % % % % b % % % % [ ] Care ar fi utilizarea memoriei de date (în procente din ciclurile utilizate) presupunând că nu există întârzieri sau coliziuni? [ ] Care va fi utilizarea portului de scriere în blocul de registru „Registre”, presupunând că nu există întârzieri sau coliziuni? [ | În loc de o organizare cu un singur ciclu, puteți utiliza o organizare cu mai multe cicluri, în care execuția fiecărei instrucțiuni durează mai multe cicluri, dar execuția instrucțiunii trebuie să se termine înainte ca următoarea instrucțiune să fie preluată Cu această organizare, instrucțiunea trece doar prin etapele de care are de fapt nevoie (de exemplu, instrucțiunea ST trece doar prin patru etape pentru că nu are nevoie de etapa WB) Comparați timpii ciclului de ceas și timpii de execuție pentru o singură cursă organizare multiciclu și pipelined Procesor Gpaea Exercițiul În acest exercițiu, veți explora impactul dependenței de date asupra conductei de bază în cinci etape discutată în Secțiunea Sarcinile din acest exercițiu se referă la următoarea secvență de instrucțiuni Secvența de instrucțiuni a lw I ( »dd J sw ( ) b lw - ( ) sw ( ) adăugați ] Afișați dependențele și indicați tipurile acestora [ ] Să presupunem că nu există nicio redirecționare a datelor în acest procesor pipeline Afișați conflictele și adăugați instrucțiuni goale pentru pori pentru a scăpa de ele | Să presupunem că se utilizează redirecționarea completă a datelor Afișați conflictele și adăugați instrucțiuni pentru pori goale pentru a scăpa de ele Pentru restul sarcinilor din acest exercițiu, se presupun următorii timpi de ciclu: Fără redirecționare de date Cu redirecționare completă a datelor Cu redirecționare numai la nivel ALU-ALU Eu ps ps ps b ps ps ps | Care ar fi timpul total de execuție pentru această secvență de instrucțiuni fără transmiterea datelor și cu transmiterea completă? Ce accelerare s-ar obține prin adăugarea de redirecționare completă la o conductă care nu avea una? ( | Adăugați instrucțiuni pentru pori la acest cod pentru a evita conflictele presupunând că este utilizată numai redirecționarea datelor ALU-ALU (fără redirecționare de la MEM la EX)? [ ] Care ar fi timpul total de execuție pentru această secvență de instrucțiuni atunci când se transmit date numai la nivelul ALU-ALU? Care va fi accelerația înlocuită de o conductă care nu utilizează redirecționarea datelor? Exercițiul În acest exercițiu, veți explora impactul conflictelor de resurse, al conflictelor de control și al designului arhitecturii setului de instrucțiuni asupra execuției pipeline Sarcinile din acest exercițiu se referă la următorul fragment de cod MI PS: Exerciții Secvența de instrucțiuni i- • ( ) be Pentru această problemă, să presupunem că toate ramurile condiționate sunt prezise cu succes (ceea ce elimină toate conflictele de control) și că nu sunt utilizate sloturi de întârziere Dacă avem o singură memorie (pentru instrucțiuni și date), atunci de fiecare dată când o instrucțiune trebuie preluată în același ciclu în care o altă instrucțiune accesează date, vom avea invariabil un conflict structural Pentru a asigura progrese ulterioare, acest conflict trebuie să fie soluționată în favoarea instrucțiunii de accesare a datelor Care ar fi timpul total de execuție pentru această secvență de instrucțiuni într-o conductă în cinci etape cu o singură zonă de memorie? Am văzut că conflictele de date pot fi rezolvate prin adăugarea de instrucțiuni pori la cod Putem face același lucru cu acest conflict structural? De ce? ( ] Pentru această problemă, să presupunem că toate salturile condiționate sunt bine prezise (ceea ce elimină toate conflictele de control) și că nu sunt utilizate sloturi de întârziere offset), aceste instrucțiuni nu vor mai avea nevoie să folosească un ALU Ca rezultat, oțelurile MEM și EX pot fi combinate, iar conducta va avea doar patru etape Modificați acest cod pentru a se potrivi cu această arhitectură modificată a setului de instrucțiuni Care va fi accelerarea la executarea acestei secvențe de instrucțiuni, presupunând că această modificare va fi nu afectează durata ciclului de ceas? ] Care este accelerarea executării acestui cod dacă rezultatele ramurilor condiționate sunt determinate în etapa D, comparativ cu execuția în care rezultatele sunt determinate în etapa EX dacă nu există intervale de întârziere în acestea ramuri condiționate? Pentru restul sarcinilor din acest exercițiu, se presupune că etapele individuale ale conductei au următoarele valori de latență: Daca eu EX MEM WB a ps ps ps ps ps b hts ps ps ps ps ] Folosind aceste latențe ale etapei conductei, repetați calculele de accelerație din Exercițiul , dar acum luați în considerare Capitolul Procesor posibile modificări ale duratei ciclului de ceas Când etapele EX și MEM sunt combinate, o mare parte din ceea ce fac ele se poate face în paralel Ca rezultat, etapa EX/MEM rezultată va avea un factor de latență mai mare decât cel al celor două etape originale, plus ns necesare pentru lucrări care nu pot fi efectuate în paralel [ Folosind aceste latențe ale etapei conductei, repetați calculele de accelerare din Exercițiul , dar acum luați în considerare posibilele modificări ale duratei ciclului de ceas Imaginați-vă că latența etapei II) a crescut cu % și latența etapei EX a scăzut cu ps când determinarea rezultatului ramului condiționat s-a mutat din stadiul EX în stadiul D [ ] Care ar fi noul ciclu de ceas și timpul de execuție al acestei secvențe de instrucțiuni, presupunând că nu există intervale de întârziere la salturile condiționate, dacă calculul adresei pentru instrucțiunea beq iic|x' ar fi mutat la etapa MEM? Care va fi accelerația obținută din cauza unei astfel de schimbări? Să presupunem că prin mutarea determinării rezultatului tranziției condiționate de la etapa EX la etapa MEM, latența etapei EX a scăzut cu ps iar latența etapei MEM a rămas neschimbată Exercițiul În acest exercițiu, veți explora modul în care arhitectura setului de instrucțiuni afectează proiectarea conductei Sarcinile din acest exercițiu fac referire la următoarea instrucțiune nouă: și Den (Rs) labei dacă Memory(Az| = , atunci PC=PC*-Smeigenie b $wl Rd Rs(Rt) Memorie[Y + Rt] -Rd [ ] Ce trebuie schimbat în unitatea de operare pipeline pentru a adăuga această instrucțiune la arhitectura setului de instrucțiuni MIPS? ( ] Ce semnale noi de control ar trebui adăugate conductei dvs din exercițiul ? [ ] Susținerea acestei instrucțiuni creează alte conflicte? Au devenit și mai mari întârzierile legate de conflictele existente? Dați un exemplu unde această instrucțiune ar putea fi utilă și o secvență de instrucțiuni MIPS existente care înlocuiește această instrucțiune ] Dacă această instrucțiune este deja prezentă într-o arhitectură de set de instrucțiuni existentă, explicați cum poate fi executată pe procesoare moderne precum AMD Barcelona, Pentru ultima problemă a acestui exercițiu, se presupune că fiecare instrucțiune nouă utilizată înlocuiește un număr dat de instrucțiuni originale, Exercițiile dar înlocuirea unui număr dat de instrucțiuni originale se poate face „ în timp și că de fiecare dată când se execută o singură instrucțiune, la timpul de execuție al mkhrama se adaugă un anumit număr de cicluri de întârziere: Număr de înlocuiri Unul pentru fiecare instrucțiune l Cicluri suplimentare de întârziere b Care ar fi creșterea vitezei obținute prin adăugarea unei noi instrucțiuni? În calculele dvs , trebuie să porniți de la faptul că indicatorul CPI al programului original (fără o nouă instrucțiune) este egal cu Exercițiul Primele trei sarcini din acest exercițiu se referă la următoarea instrucțiune MI PS: Instruire a II L ( ) [ ) Ce este stocat în fiecare registru situat între două etape ale conductei în timpul execuției acestei instrucțiuni? [ | Ce registre ar trebui citite și ce registre sunt de fapt citite? ] Ce face această instrucțiune în etapele EX și MEM? Celelalte trei probleme din acest exercițiu se referă la următorul ciclu Să presupunem că este utilizată predicția perfectă a ramurilor (fără întârzieri din cauza conflictelor de control), fără intervale de întârziere și că conducta are suport complet pentru redirecționarea datelor De asemenea, presupuneți că multe iterații sunt efectuate înainte de a ieși din buclă Ciclu a ioor II ( ) add II add U M ty ( ) t*q W (OOO b •oor add lw ( ) S" ( ) add " Beq bucla [ ) Afișați diagrama conductei pentru a treia iterație a acestei bucle, din bucla care preia prima instrucțiune a acestei bucle Capitolul Procesor iterație și (exclusiv) până la bucla care preia prima instrucțiune a următoarei iterații Arată-i instrucțiunile care sunt în curs în timpul acestor cicluri (nu doar cele care aparțin celei de-a treia iterații) [ ] Cât de des (ca procent din toate ciclurile) va exista un ciclu în care toate cele cinci etape ale conductei efectuează lucrări utile? | Ce este stocat în registrul F/ID la începutul buclei care preia prima instrucțiune a celei de-a treia iterații? Exercițiul În scopul acestui exercițiu, se presupune că instrucțiunile sunt executate de procesorul pipeline în următoarele proporții: adauga baq lw SW a % % % % b % % % % | | Ce procent din toate ciclurile de ceas generează sumatorul condiționat de ramificație în etapa EX valoarea reală utilizabilă fără întârzieri și o rată de completare a ramurilor condiționate de %? [ ] Cât de des (ca procent din toate ciclurile) ar fi într-adevăr necesar să folosiți toate cele trei porturi de fișiere de înregistrare (două pentru citire și unul pentru scriere) în același ciclu dacă nu ar exista întârzieri? | | Cât de des (ca procent din toate ciclurile) va fi utilizată memoria de date dacă nu există întârzieri? Fiecare etapă a conductei prezentată în Fig , există un indicator de latență În plus, registrele dintre etape sunt utilizate în conducte (vezi Figura ) și fiecare adaugă multă latență Pentru restul sarcinilor din acest exercițiu, se presupun următoarele valori de latență pentru logica din fiecare etapă a conductei și pentru fiecare registru dintre două etape: IF U EX MEM WB Registrul transportor a ps ps ps ps ps ps b ps ps ps ps ps ps [ ] Care ar fi accelerarea obținută prin canalizarea unui bloc operațional cu un singur ciclu, presupunând că nu există întârzieri? | Toate instrucțiunile de stocare a încărcării pot fi transformate în instrucțiuni bazate pe valoarea registrului (fără compensare) și accesul la memorie poate fi plasat în paralel cu funcționarea ALU Cât de lung ar fi ciclul de ceas dacă s-ar face într-un singur ciclu și într-un bloc operațional canalizat? Să presupunem că latența noului oțel EX/MEM este egală cu cea mai mare dintre latența lor Exercițiul [ ] Modificarea discutată în exercițiul necesită ca multe instrucțiuni Іu/sw să fie convertite într-o secvență de două instrucțiuni Dacă o astfel de conversie este necesară pentru % dintre astfel de instrucțiuni, cum se realizează prin înlocuirea unui transportor în cinci trepte cu unul în patru trepte, unde oțelurile FX și MEM rulează în paralel? Exercițiul Primele trei sarcini din acest exercițiu se referă la execuția următoarei instrucțiuni în blocul de operare pipeline din Figura și să presupunem următoarea durată a ciclului de ceas, latența ALU și latența MIX: D Instrucțiuni Ceas Ciclu Timp ALU Latență Latență microfon l * * CP CP Yule b slt * * fibre ps ps | Care vor fi pentru fiecare etapă a conductei valorile semnalelor pranasului valorile expuse de această instrucțiune în această etapă? [ | Cât timp va dura generarea semnalului de control ALUSrc? Comparați această cifră cu cifra pentru o organizație cu un singur ciclu Care este semnificația semnalului PCSrc pentru această instrucțiune? Acest semnal este generat la începutul etapei MEM (se folosește doar o poartă AND pentru aceasta) Ce motiv poate fi dat pentru a face acest lucru în stadiul EX? Ce motiv poate fi dat împotriva acestui lucru în stadiul EX? Restul sarcinilor din acest exercițiu se referă la următoarele semnale din Tabelul : Semnal Semnal și RegDst RegWnte b MemRead RegWnte | ] Determinați stadiul conductei care generează și utilizează fiecare dintre aceste semnale [ ] Pentru care instrucțiune M PS (sau pentru ce instrucțiuni) ambele semnale sunt setate la unul singur? [ ] Unul dintre aceste semnale este alimentat înapoi pe transportor Ce este acest semnal? Există aici un paradox al călătoriei în timp? Explica Capitolul Procesor Exercițiul Acest exercițiu este conceput pentru a vă ajuta să înțelegeți echilibrul cost-complexitate-performanță al redirecționării datelor într-un procesor pipeline Sarcinile din acest exercițiu se referă la unitățile de operare pipeline prezentate în Figura Aceste sarcini presupun că pentru fiecare instrucțiune executată în procesor, instrucțiunea care o urmează are un tip specific de dependență de date citire după scriere Tipul depinde de etapă (EX sau MEM) și de următoarea instrucțiune (prima instrucțiune care urmează celei care a produs rezultatul, a doua instrucțiune care o urmează sau ambele) Se presupune că scrierea în registru are loc în prima jumătate a ciclului de ceas, iar citirea registrului are loc în a doua jumătate a ciclului, astfel încât dependențele „EX de a treia” și „MEM de a doua” nu sunt luate în considerare, întrucât nu pot duce la conflicte de date De asemenea, se presupune că, în absența conflictelor de date, CPI-ul procesorului este egal cu unu EX numai la mâner EX la primul și al doilea EX numai la al doilea MEM la primul a % % % % b % % % % [ ] Ce proporție de cicluri va fi explicată de întârzierile coliziunii de date dacă nu se utilizează redirecționarea datelor? ( ] Ce proporție de cicluri se va datora întârzierilor de coliziune a datelor dacă este utilizată redirecționarea completă a datelor (redirecționarea tuturor rezultatelor care pot fi supuse acesteia)? ( ] Să presupunem că nu putem avea multiplexoarele cu trei intrări necesare pentru a redirecționa complet datele Trebuie să decidem dacă redirecționăm doar din registrul conductei EX/MEM (redirecționați la următorul ciclu) sau numai din registrul conductei MEM/WB (de două ori înainte) Care dintre cele două are ca rezultat mai puține cicluri de latență a datelor? Celelalte trei sarcini din acest exercițiu se referă la valorile de latență pentru etapele individuale ale conductei Pentru etapa EX, scorurile de latență sunt date separat pentru un procesor fără redirecționare și pentru un procesor cu diferite tipuri de redirecționare IF IO EX (*• „transl ) EX (cu retransl completă) EX (Transr numai în EX/MEM) EX (Transr numai IE MEM/WB) MEM WB a ps ps ps ps IOOps IOOps ps ps b ps ps ps ps ps ps ps ps Exercițiul [ ] ■entzhk tn etapă transportor? ( | Care ar fi accelerarea suplimentară (față de profesorul cu transmiterea datelor) dacă am folosi femsny travel care elimină toate conflictele de date? Să presupunem că călătoria în timp adaugă doar ps la latența unui timp complet echipat a conducerii etapei EX ( ] Repetați exercițiul , dar de data aceasta stabiliți în care dintre cele două cazuri timpul petrecut la instrucție va fi mai mic Exercițiul Sarcinile din acest exercițiu se referă la următoarele secvențe de instrucțiuni Secvența de instrucțiuni A - ( ?) Ade Ade s ( ) la / / ( ) și ( ) după [ | Găsiți toate dependențele de date în această secvență de instrucțiuni ( ] Pentru această secvență de instrucțiuni, găsiți toate conflictele care apar atunci când este executată pe o conductă în cinci etape folosind redirecționarea datelor și nu folosind redirecționarea datelor [ ] Pentru a reduce timpul ciclului de ceas, luăm în considerare împărțirea etapei MEM în două etape Faceți exercițiul pentru această conductă în șase etape Pentru celelalte trei sarcini din acest exercițiu, se presupune că toate valorile din memoria de date sunt zero înainte de executarea instrucțiunilor, iar registrele de la la au următoarele valori inițiale: $ $ S S a b • [ ] Ce valoare va fi transmisă prima și ce valoare va suprascrie? Capitolul Procesor ( ] Dacă, la proiectarea unității de detectare a conflictelor, am presupus că transmiterea datelor va fi implementată, dar apoi am uitat de asta, atunci care vor fi valorile registrelor până la urmă după executarea acestui lucru succesiune de instrucțiuni? [ ] Pentru constructul descris în exercițiul , adăugați instrucțiuni goale (pori) pentru a asigura execuția corectă în ciuda lipsei suportului pentru transmiterea datelor Exercițiul Acest exercițiu are scopul de a vă ajuta să înțelegeți relația dintre redirecționare, detectarea conflictelor și proiectarea arhitecturii setului de instrucțiuni Sarcinile din acest exercițiu se referă la următoarele secvențe de instrucțiuni și presupun că sunt executate de o unitate de operare care are o conductă în cinci etape: Secvența de instrucțiuni a II ( ) adaugă l? W tl adauga la sw ig (M) si ll il b adăugați sw ( ) lw ( ) adăugați sw ( ) [ ] Introduceți instrucțiuni goale (po) pentru a asigura execuția corectă în cazul în care nu există redirecționare sau detectarea coliziunii ( ) Repetați exercițiul , dar de data aceasta utilizați instrucțiunile por numai dacă conflictul nu poate fi rezolvat prin schimbarea sau rearanjarea instrucțiunilor Puteți presupune că puteți utiliza registrul R pentru a stoca valori temporare în codul modificat [ ] Ce se întâmplă când acest cod este executat dacă procesorul are redirecționare și am uitat să implementăm un bloc de detectare a conflictelor? [ ] Specificați ce semnale sunt afirmate în fiecare ciclu de blocurile de detectare a coliziunilor și de redirecționare prezentate în Figura - dacă redirecționarea datelor este utilizată pentru primele cinci cicluri în timpul executării acestui cod [ ] De ce noi intrări și ieșiri avem nevoie pentru blocul de detectare a coliziunilor prezentat în fig , în lipsa transmiterii datelor? Explicați, folosind această secvență de instrucțiuni ca exemplu, de ce este necesar fiecare semnal Exerciții / [ ] Determinați ce semnale de ieșire sunt afirmate în fiecare kz din primele cinci cicluri când acest cod este executat în noul bloc de detectare a conflictelor din Exercițiul Exercițiul Acest exercițiu este conceput pentru a vă ajuta să înțelegeți relația dintre sloturile de întârziere, conflictele de control și execuția ramurilor condiționate într-un procesor pipeline Acest exercițiu presupune că următorul cod MIPS rulează pe un procesor care are o conductă în cinci etape, redirecționare completă și un predictor de ramificație condiționat: I am> LaM : lw $ ( ) bea $ LabelZ aao $ $ bea $l $ Labell sw ( ) and $ Coc'oanc" Not cos'mps" b Ubell add sw $ ( ) add beq $ - abell add K $ sw ( ) Not cooo"nc" [ ] Desenați o diagramă a conductei de execuție pentru acest cod, presupunând că nu există intervale de întârziere și sărituri condiționate sunt executate în etapa EX ( ] Repetați exercițiul , dar acum folosind intervale de întârziere Acum, în acest apel, instrucțiunea care urmează instrucțiunii de ramificare condiționată este instrucțiunea de interval de întârziere pentru acea ramificare condiționată [ ] O modalitate de a muta activarea unui salt condiționat cu un pas mai devreme este de a nu folosi operația ALU în salturi condiționate Instrucțiunile de ramificare condiționată trebuie să fie de forma „bez Rd,Labei” și „bnez Rd Labei” și să sară când registrul este zero sau non-zero, respectiv Modificați acest cod pentru a utiliza aceste instrucțiuni de ramificare condiționată în locul instrucțiunii oeq Putem presupune că registrul $ este disponibil pentru utilizare ca registru temporar și că se poate folosi instrucțiunea de tip R (setat dacă este egal) Secțiunea descrie modul în care puteți reduce dificultățile care apar din conflictele de control prin mutarea execuției ramurii condiționate în etapa ID După cum se arată în fig , această abordare implică utilizarea etapei ID Capitolul Procesor unitate de comparație specializată (comparator) Dar această abordare crește potențial latența etapei ID și necesită o logică suplimentară de redirecționare și de detectare a coliziunilor [ J Folosind prima instrucțiune de salt condiționat disponibilă în acest cod ca exemplu, descrieți logica de detectare a conflictelor necesară pentru a sprijini execuția ramurilor condiționate în etapa ID, ca în Figura , Ce tip de conflict ar trebui să fie detectat cu această nouă logică? Folosind prima instrucțiune de ramificare condiționată disponibilă în acest cod ca exemplu, descrieți suportul de redirecționare care trebuie adăugat pentru a activa ramificarea condiționată în etapa ID Comparați complexitatea acestui nou bloc înainte cu complexitatea blocului înainte existent prezentat în Fig , Exercițiul Importanța de a avea un bun predictor de ramuri condiționate depinde de cât de des sunt executate ramurile condiționate Odată cu acuratețea blocului de predicție, se determină și timpul petrecut cu întârzierile asociate cu tranzițiile condiționate incorect prezise Pentru acest exercițiu, imaginați-vă că instrucțiunile dinamice dintre diferitele categorii de instrucțiuni au următoarea distribuție R-tip jmp lw •w ■ % % % % % b % % % % % De asemenea, trebuie să furnizați următoarea precizie a predicției de ramuri condiționate: Always Consist" Nu se întâmplă niciodată Predictor cu două rânduri a % % % b % % % ( ) Buclele de întârziere din cauza ramurilor condiționate estimate greșit cresc IPC Cu cât va crește IPC din cauza ramurilor condiționate incorect prezise atunci când se folosește un predictor care crede că tranziția va avea loc întotdeauna? Să presupunem că rezultatul ramurii condiționate este determinat în stadiul EX, nu există conflicte de date și nu sunt utilizate sloturi de întârziere Exercițiul ( ] Repetați exercițiul pentru predictorul „niciodată” [ ] Repetați exercițiul pentru un predictor de două cifre [ ] Ce accelerare se poate obține cu un predictor pe doi biți dacă putem transforma jumătate din instrucțiunile de ramificare condiționată prin înlocuirea instrucțiunii de ramificare condiționată cu o instrucțiune ALU? Să presupunem că instrucțiunile care sunt prezise corect și incorect au șanse egale de a fi înlocuite [ ] Ce accelerare se poate obține cu un predictor pe doi biți dacă putem transforma jumătate din instrucțiunile de ramificare condiționată prin înlocuirea instrucțiunii de ramificare condiționată cu două instrucțiuni ALU? Să presupunem că instrucțiunile care sunt prezise corect și incorect au șanse egale de a fi înlocuite [ ] Acțiunile unor instrucțiuni de ramificare condiționată sunt mai previzibile decât acțiunile altora Dacă știm că % din toate instrucțiunile de ramificare condiționată executate sunt salturi condiționate ușor de prezis la începutul buclei, care ar fi acuratețea predictorului pe doi biți pentru restul de % din instrucțiunile de ramificare condiționată? Exercițiul În acest exercițiu, acuratețea diferiților predictori ai rezultatelor condiționate este evaluată pentru următoarele modele repetate ale rezultatelor lor (de exemplu, într-un ciclu): Rezultatele sărituri condiționate în S S NS Cu b s cu cu ns NS [ ] Care va fi acuratețea predictorului „se întâmplă întotdeauna” și a predictorului „nu se întâmplă niciodată” pentru această secvență de rezultate de salt condiționat? [ Care va fi precizia predictorului pe doi biți pentru primele patru ramuri condiționate din acest circuit, cu condiția ca predictorul să pornească de la starea prezentată în colțul din stânga jos al Fig („Predicție care nu va avea loc”) [ | Care va fi acuratețea unui predictor cu două cifre dacă acest model se repetă în mod constant? | | Proiectați un predictor care obține o acuratețe perfectă dacă acest model se repetă în mod constant Predictorul dvs ar trebui să fie un circuit secvenţial cu o singură ieşire de predicţie ( pentru a prezice tranziţia va avea loc, iar pentru a prezice că nu va avea loc) și cu intrări dedicate doar impulsurilor de ceas Capitolul Procesor și un semnal de control care indică faptul că instrucțiunea este o ramură condiționată (Y] Care va fi acuratețea predictorului dvs din exercițiul dacă este dat un model care se repetă care este exact opusul modelului secret? [ | Faceți din nou exercițiul dar acum presupunând că predictorul dvs ar trebui să poată în cele din urmă (după o perioadă de funcționare stabilă în care poate face predicții incorecte) să facă predicții precise atât pentru schemele prezentate, cât și pentru inversiunile acestora Predictorul dvs trebuie să aibă o intrare care să îi spună rezultatul real al saltului condiționat Sugestie Această intrare permite predictorului să determine care dintre cele două modele iterative este dat Exercițiul Acest exercițiu explorează modul în care gestionarea excepțiilor afectează proiectarea conductei Primele trei probleme din acest exercițiu se referă la următoarele două instrucțiuni: Instrucțiunea Instrucțiunea a add S S S bne SI S labei lw S (S ) run St $ J Ce excepție poate arunca fiecare dintre aceste instrucțiuni? Specificați stadiul conductei în care fiecare dintre aceste excepții este prinsă [ ] Arătați cum trebuie schimbată organizarea conductei pentru a putea gestiona această excepție dacă există o adresă de handler separată pentru fiecare excepție Se poate presupune că adresele acestor handler au fost cunoscut când a fost proiectat procesorul [ ] Dacă a doua instrucțiune din acest tabel este preluată imediat după prima instrucțiune, descrieți ce se întâmplă în conductă când prima instrucțiune provoacă prima excepție, adică tech care sunt enumerate în timpul exercițiului Desenați o diagramă a execuției conductei din momentul în care prima instrucțiune este preluată și până la finalizarea execuției primei instrucțiuni a handler-ului de excepții Pentru celelalte trei sarcini din acest exercițiu, se presupune că manipulatorii de excepții sunt localizați la următoarele adrese: Operator de depășire Gestionar adrese de date valide Manipulare de instrucțiuni ilegale Handler pentru adresă de instrucțiuni nevalidă Eroare hardware gestionată a OxFFFFFOOO OmFFFFFIOO xFFFFF xFFFFF xFFFFF x x x x Exercițiile [ ] Care ar fi adresa operatorului de excepție din exercițiul ? Ce se întâmplă dacă se acumulează una invalidă la adresa specificată în memoria de instrucțiuni? ] În gestionarea excepțiilor vectoriale, tabelul cu adresele lucrătorilor întrerupt este localizat în memoria de date la o adresă cunoscută (fixă) Faceți modificări în conductă pentru a reimplementa acest mecanism de aruncare a excepțiilor Faceți din nou exercițiul folosind această conductă modificată și gestionarea excepțiilor vectoriale ( ) Vrem să emulăm gestionarea excepțiilor vectoriale (descrisă în exercițiul ) pe o mașină care are o singură adresă fixă de handler Scrieți codul care trebuie să se afle la acea adresă fixă Sugestie: Acest cod ar trebui să identifice excepția obțineți adresa corectă din tabelul de vectori de excepții și transferați execuția la acest handler Exercițiul Acest exercițiu explorează impactul gestionării excepțiilor asupra designului blocului de control și asupra timpului ciclului de ceas al procesorului Primele trei probleme din acest exercițiu se referă la următoarele instrucțiuni Ml PS care declanșează o excepție Excepție de instrucțiuni a adăuga $ Arithmetic overflow b II ( ) Adresă greșită în memoria de date [ ] Determinați pentru fiecare etapă a conductei prezentate în fig , valorile semnalelor de control asociate cu excepția pe măsură ce această instrucțiune trece prin această etapă a conductei [ ] Unele semnale de control generate în etapa ID sunt stocate în registrul conductei J/EX, iar unele merg direct la etapa EX Explicați de ce este așa, folosind această instrucțiune ca exemplu [ ) Etapa EX poate fi accelerată dacă verificăm excepții într-o etapă care urmează etapa în care apar condițiile pentru o excepție Folosind această instrucțiune ca exemplu, descrieți principalul dezavantaj al acestei abordări Pentru celelalte trei sarcini din acest exercițiu, se presupune că etapele pipeline au următoarele valori de latență: IF IO EX MEM WB a ZOO os ps ps ps ps b ps ps Yups ps ps Capitolul Procesor ( ] Care ar fi viteza generală de mutare a verificării de depășire în etapa MEM dacă o excepție de depășire apare o dată la fiecare de instrucțiuni executate? Se presupune că această modificare reduce latența etapei EX cu ps și că IPC-ul obținut de un procesor pipeline în absența excepțiilor este [ | Putem genera semnale de control excepție nu în etapa I(d), ci în etapa EX? Explicați cum va funcționa acest lucru sau de ce nu va funcționa, folosind instrucțiunea „bne $ ,$ ,Labei” și aceste latențe ale etapei pipeline ca exemplu [ ] Determinați câte semnale de resetare ar trebui să genereze unitatea de control dacă latența fiecărui multiplexor (Mix) este de ps? Care semnal este cel mai important? Exercițiul Acest exercițiu explorează interacțiunea gestionării excepțiilor cu instrucțiunile de ramificare condiționată și instrucțiunile de stocare de încărcare Sarcinile din acest exercițiu se referă la următoarele instrucțiuni de ramificare condiționată și instrucțiunile de interval de întârziere corespunzătoare: Salt condiționat și slot de întârziere a bec G L "oe' sw I ( ) b teq I labe: gog M | | Repetați exercițiul , dar acum cu condiția ca instrucțiunea din slotul de întârziere să arunce și o excepție de eroare hardware atunci când este în stadiul MEM [ ] Care ar fi valoarea EPC dacă ramificația condiționată ar avea loc, dar intervalul de întârziere ar arunca o excepție? Ce se întâmplă după ce terminați gestionarea excepțiilor? Celelalte trei probleme din acest exercițiu se referă la instrucțiunea de salvare; Salvați instrucțiunile a sw I ) b SW ( ) Exercițiul [ Ce se întâmplă dacă are loc un salt condiționat, instrucțiunea * de la eticheta „Labei” este invalidă, prima instrucțiune ^Exception Catch este instrucțiunea $ de mai sus și această instrucțiune de stocare este accesată de o adresă de date invalidă ? ] Dacă calculul adresei depozitului de încărcare ar putea avea ca rezultat un aaepep ijenn, putem amâna detectarea unei excepții de depășire până la etapa MEM? Utilizați manualul de salvare pentru a explica ce se întâmplă ] | Pentru depanare, ar fi util să putem detecta când ■ o anumită valoare este scrisă la o anumită adresă de memorie, ■ dorim să adăugăm două registre noi: WADDR și WVAL Procesorul ar trebui să ridice o excepție atunci când o valoare este egală la valoarea registrului WVAL este gata și o scriere la adresa, a cărei valoare se află în registrul WADDR Ce modificări veți face în conductă pentru a implementa această idee? Cum este gestionată această instrucțiune SW de blocul dvs operativ modificat? Exercițiul Acest exercițiu compară performanța procesoarelor cu rularea mea a unei instrucțiuni care rulează două instrucțiuni în paralel, care învață transformarea programului făcută pentru a optimiza execuția pe un procesor care rulează două instrucțiuni în paralel Sarcinile din acest exercițiu se referă la următoarea buclă (scrisă în C) ): Codul este „limbajul C [d b Când scrieți codul MIPS, trebuie să presupunem că variabilele sunt stocate în registre în ordinea definită mai jos și că toate registrele, cu excepția celor afișate gratuit, sunt folosite pentru a stoca diverse variabile, deci nu pot fi folosite în niciun alt scop a b b Gratuit a USD S USD USD USD , M USD b $ $ S $ $ SI S S | Traduceți acest cod C în instrucțiuni MIPS Traducerea dvs ar trebui să fie directă, fără instrucțiuni remaniere pentru a obține performanțe mai bune [ ] Dacă bucla iese după doar două iterații, desenați o diagramă conductă pentru codul dvs MIPS din Exercițiul executat pe un procesor cu lansare paralelă a doi Capitolul Procesor instrucțiunile prezentate în fig , Să presupunem că procesorul are un predictor de ramură condiționat perfect și poate prelua oricare două instrucțiuni (nu doar instrucțiuni consecutive) în același ciclu ] Rearanjați instrucțiunile din codul dvs din Exercițiul pentru a obține performanțe mai bune pe un procesor paralel cu două instrucțiuni distribuit static, prezentat în Figura , ] Efectuați din nou exercițiul dar acum folosește-ți codul din exercițiul ] Care este viteza de trecere de la un procesor care rulează o instrucțiune la un procesor care rulează două instrucțiuni în paralel (vezi Figura )? Pentru execuții atât de instrucțiuni simple cât și duble, utilizați codul din Exercițiul , presupunând de iterații în buclă ca în Exercițiul trebuie presupus că procesorul are un predictor de ramificare condițional perfect și că un procesor cu execuție de instrucțiuni paralele poate prelua oricare dintre cele două instrucțiuni în același ciclu de ceas ] Repetați exercițiul , dar acum ghiciți că pentru un procesor cu două instrucțiuni care rulează în paralel, una dintre instrucțiunile destinate a fi executate într-o buclă poate fi o instrucțiune de orice tip, iar cealaltă trebuie să fie o instrucțiune fără acces la memorie Exercițiul În acest exercițiu, vom rula o buclă pe un procesor super cal luminos cu trimitere statică Pentru a simplifica exercițiul, să presupunem că în aceeași buclă, instrucțiuni de diferite tipuri pot fi executate în orice combinație, de exemplu, pe un procesor superscalar cu trei instrucțiuni care rulează în paralel, pot fi trei operații AL, trei instrucțiuni de ramificare condiționată, trei instrucțiuni de salvare a încărcării sau orice combinație a acestor instrucțiuni Rețineți că acest lucru elimină doar constrângerile de resurse, dar dependențele de date și de control ar trebui totuși gestionate corespunzător Sarcinile din acest exercițiu se referă la următoarea buclă: Ciclu bucla - și ( ) dd ) sw ( ) "ddi s , ( ] Dacă se execută un număr mare (de exemplu, ) n-nuts ale unei date date, determinați proporția tuturor citirilor de registru, ceea ce ar fi util atunci când utilizați un procesor superscalar cu o dublă declanșare statică de două instrucțiuni Dacă se execută un număr mare (de exemplu, ) de „pe cicluri” dintr-un anumit ciclu, determinați proporția tuturor citirilor de registru care ar fi utilă atunci când se utilizează un procesor super-scalar cu rulând trei instrucțiuni Comparați rezultatul obținut cu rezultatul pentru un procesor cu lansare paralelă a două instrucțiuni de la ■predation* іeniya [ | Dacă se execută un număr mare (de exemplu, ) de iterații ale unui anumit ciclu, determinați proporția tuturor ciclurilor în care sunt utilizate porturile de scriere tr -x sau trei registre într-un procesor supscalar cu statin-press par i i instrucțiuni ( ] Desfășurați această buclă o dată și programați execuția instrucțiunilor sale pentru un procesor superscalar cu un static Care este viteza de utilizare a apelului dvs din exercițiul în locul codului original atunci când îl rulați pe un procesor supscalar care rulează două instrucțiuni în paralel? Să presupunem că acest aikle are un număr mare de iterații (de exemplu, ) Care este accelerarea utilizării codului dvs din exercițiul în locul codului original atunci când îl rulați pe un procesor pipeline (care rulează doar o instrucțiune pe ciclu de ceas)? Să presupunem că această buclă rulează un număr mare de iterații (de exemplu, ) Exercițiul În acest exercițiu, vom face o serie de ipoteze În primul rând vom presupune că un procesor superscalar cu ^instrucțiuni care rulează în paralel poate executa orice instrucțiuni în același ciclu de ceas, indiferent de tipurile acestora În al doilea rând, vom presupune că fiecare instrucțiune este selectată independent, indiferent de instrucțiunea care o precede sau o urmează În al treilea rând vom presupune că dependențele de date nu cauzează întârzieri, că sloturile de întârziere nu sunt utilizate și că salturile condiționate sunt executate în conductă în etapa EX În cele din urmă, vom presupune că instrucțiunile care urmează să fie executate în program sunt distribuite după cum urmează: ALU Instrucțiune Heq cu rezultat corect prezis Instrucțiune Beq cu rezultat incorect prezis hv tw a % % % % % b % % % % % Capitolul Procesor [ ) Care va fi IPC realizat prin executarea acestui program pe un procesor superscalar static cu două instrucțiuni care rulează în paralel? [ | Care ar fi accelerarea obținută prin adăugarea capacității de a prezice două ramuri condiționate într-un ciclu pe un procesor supscalar static care rulează două instrucțiuni în paralel, al cărui predictor este capabil să deservească doar o ramificare condiționată într-un ciclu? Presupunem că pentru ramurile condiționate pe care predictorul nu le poate procesa, se aplică politica de întârziere a ramurilor condiționate ( ] Ce accelerare se obține prin adăugarea unui al doilea port de scriere a fișierului de registru la un procesor superscalar static care are un singur port de scriere a fișierului de registru? | | Ce accelerare se obține prin perfecționarea predictorului de ramificare condiționată pe un procesor superscalar static cu două instrucțiuni care rulează în paralel? [ | Repetați exercițiul , dar acum pentru un procesor cu patru instrucțiuni care rulează în paralel Ce concluzie se poate trage despre importanța predicției de succes a ramurilor condiționate atunci când numărul de instrucțiuni care rulează în paralel crește în procesor? Repetați exercițiul , dar acum presupunând că procesorul de rulare paralelă are de etape de conductă Presupune că fiecare dintre cele cinci etape originale este împărțită în zece etape noi și că ramurile condiționate sunt executate în prima dintre cele zece noi etape EX Ce concluzie se poate trage despre importanța predicției de succes a ramurilor condiționate atunci când adâncimea conductei procesorului crește? Exercițiul Sarcinile din acest exercițiu se referă la următoarea buclă, prezentată atât ca cod x , cât și ca traducere MIPS a codului respectiv Se poate presupune că un număr mare de iterații sunt efectuate înainte de a ieși din această buclă Atunci când determinăm performanța, aceasta înseamnă că trebuie doar să stabilim care va fi performanța în „starea staționară”, și nu pentru primele și ultimele iterații ale buclei De asemenea, se poate presupune suport deplin pentru transmiterea datelor și predicția perfectă a ramurilor condiționate fără intervale de întârziere, unde doar coliziunile de resurse și date sunt o preocupare Fii atent la asta pe care o au majoritatea instrucțiunilor x utilizat în această problemă, există doi operanzi fiecare Ultimul operand (de obicei al doilea) al instrucțiunii arată atât valoarea primei date sursă, cât și locația datelor rezultate Dacă operația necesită o a doua valoare de date sursă, aceasta este afișată de un alt operand al instrucțiunii De exemplu, instrucțiunea „sub(edx) eax” citește datele din locația de memorie specificată în registrul edx, scade acea valoare din valoarea registrului eage și plasează rezultatul înapoi în registrul eax Exercițiul Instrucțiuni x Traducere ■ ca cod MIPS Labei nev- (esp) ea" ubel lw " ,- (lsp) adaugă (ed „l ea” lw ( ) adauga / / novea” (sp) W (lsp) adaugă eo aodi aod ed > addi crop ev eo slt J Labei one Labei Labei add ea* (ea«) Labei lw ( ) adaugă SW ( ) nov ea" ed" add add ea» addi J Laoe slt Labei ( ) Ce CPI s-ar obține dacă versiunea MIPS a celui de-al i Ce CPI va fi atins dacă versiunea x a buclei este executată pe un procesor cu dispecerare statică, ■ Acesta are o conductă în șapte etape și rulează doar o instrucțiune pe »un singur ciclu de ceas? Etapele conductei se numesc IF IO ARD, MRD, EXE • WB Etapele IF și ID sunt aceleași cu cele din conducta în cinci etape Ml PS La etapa ARD se calculează adresa locației de memorie de citit, la etapa MRD se citește memoria, la etapa EXE se efectuează operația, iar la etapa WB rezultatul este scris în registru sau memorie Memoria de date are un port de citire (pentru instrucțiunile din stadiul MRD) și un port de scriere separat (pentru instrucțiunile din stadiul WB) [ ] Ce CPI s-ar obține dacă o rulare x a acestei bucle s-ar rula pe un procesor care a tradus intern acele instrucțiuni în micro-opțiuni asemănătoare MIPS și apoi ar executa acele micro-opțiuni pe cinci conductă de etapă cu trimitere statică? ;Iy și rulează o instrucțiune pe ciclu de ceas Rețineți că contorul de instrucțiuni utilizat la calcularea CPI pentru acest procesor este contorul de instrucțiuni x [ ] Ce CPI ar fi atins dacă versiunea M PS a acestui ciclu rulează pe un procesor cu dispecerare dinamică și rulează o instrucțiune pe ciclu de ceas? Să presupunem că procesorul nostru nu redenumește registrele, așa că puteți schimba doar ordinea instrucțiunilor care nu au dependențe de date ( ) Să presupunem că un număr mare de registre gratuite sunt disponibile Redenumiți registrele în versiunea MIPS a acestei bucle pentru a elimina cât mai multe dependențe de date între instrucțiunile din aceeași iterație a buclei Capitolul Procesor repetați exercițiul folosind noul dumneavoastră cod redenumit registre [ ] Repetați exercițiul , dar acum presupunând că procesorul atribuie un nou nume rezultatului fiecărei instrucțiuni pe măsură ce acea instrucțiune este decodificată și apoi redenumește registrele utilizate de instrucțiunile ulterioare din pentru a lucra cu valori corecte ale registrului Exercițiul Pentru problemele din acest exercițiu, se presupune că salturile condiționate reprezintă o anumită proporție din toate instrucțiunile executate și au un anumit indicator de precizie în prezicerea rezultatului unui salt condiționat Să presupunem că procesorul nu se blochează niciodată din cauza dependențelor de date și resurse, adică procesorul preia și execută întotdeauna numărul maxim de instrucțiuni pe ciclu dacă nu există conflicte de control Pentru dependențe legate de control, procesorul folosește predicția de ramificare condiționată și continuă să preia instrucțiuni din calea prezisă Dacă o ramură condiționată a fost estimată greșit când rezultatul ramurului condiționat este activat, instrucțiunile preluate după ramura estimată greșit sunt eliminate, iar procesorul începe următorul ciclu preluând instrucțiuni din calea corectă Salturi condiționate ■ Procentul tuturor instrucțiunilor executate Precizia predicției sărituri condiționate, N b , | | Câte instrucțiuni se așteaptă să fie executate între detectarea unei eșecuri de predicție de salt condiționat și următoarea detectare a aceluiași eșec de predicție condiționată? Pentru restul problemelor din acest exercițiu, se presupune că, la o anumită adâncime, rezultatul tranziției condiționate a fost găsit pe un oțel transportor dat (cu numărarea începând din etapa ): Adâncimea conductei Etapa în care este cunoscut rezultatul unei ramificații condiționate a b | Câte instrucțiuni de ramificare condiționată așteaptă în starea „progres” (deja preluate, dar încă netransmise) la un moment dat într-un procesor paralel cu patru instrucțiuni cu parametrii pipeline specificați? Exercițiul • [ ] Câte instrucțiuni au fost preluate de pe calea greșită pentru „a-a ramură condiționată estimată greșit într-un procesor care rulează patru instrucțiuni în paralel? [ | Care va fi accelerarea cauzată de schimbarea procesorului » extinderea capacității de a rula în paralel de la patru la opt inducții? Se presupune că un procesor cu opt „tranzacții” de rulare paralelă este diferit de un procesor cu patru rulări paralele ■ - instrucțiuni numai după numărul de instrucțiuni pe un ciclu și în În caz contrar, ele sunt identice (în adâncimea conductei, etapele detectării rezultatului unei tranziții lungi etc ) IJ) Care ar fi accelerarea dacă salturile condiționate ar putea fi executate cu o etapă mai devreme într-un procesor care rulează „patru instrucțiuni” în paralel? ( ) Care va fi accelerarea dacă salturile condiționate * sunt executate cu o etapă mai devreme într-un procesor de rulare paralelă ■ Instrucțiuni Gmi? Analizați diferența dintre acest rezultat și rezultat obţinut prin rezolvarea exerciţiului Exercițiul • Acest exercițiu explorează impactul predicției de ramuri condiționate asupra performanței unui procesor profund canalizat cu instrucțiuni paralele Sarcinile din acest exercițiu se referă la un procesor cu următorul număr de etape pipeline și următorul număr de instrucțiuni de rulat per ciclu de ceas: Yunaaiar Adâncime Lățimea de lansare paralelă a b [ ] Câte porturi de citire a fișierelor de înregistrare ar trebui să aibă un procesor pentru a evita orice conflict de resurse atunci când citește registrele? [ ] Care este îmbunătățirea așteptată a performanței față de un procesor cu o instrucțiune pe ceas cu o conductă în cinci etape, fără sărituri condiționate estimate greșit și fără dependențe de date? Să presupunem că lungimea ciclului de ceas scade proporțional cu numărul de etape ale conductei [ ] Repetați exercițiul , dar acum fiecare instrucțiune fiind executată având o dependență de date citire după scriere cu instrucțiunea imediat următoare Puteți presupune că nu aveți nevoie de bucle de întârziere, adică redirecționarea secret permite instrucțiunilor succesive să ruleze în bucle continue Capitolul Procesor Pentru celelalte trei probleme din acest exercițiu, cu excepția cazului în care problema este specificată altfel, unele statistici privind procentul de instrucțiuni de ramificare condiționată, precizia predicției și pierderile de performanță datorate inexactității predicției trebuie să fie presupuse ca o condiție: — Ponderea salturilor condiționate dintre toate instrucțiunile care sunt trecute Salturi condiționate în etapă Precizia predicției, % Scădere a performanței, % a b — ( ] Ce procent din toate ciclurile este cheltuit complet pentru a prelua instrucțiuni din căi greșite pentru o anumită proporție de instrucțiuni de ramificare condiționată și precizie de predicție a ramurilor condiționate? ( ) Care ar trebui să fie acuratețea predicțiilor de ramuri condiționate dacă dorim să limităm latența asociată cu ramurile condiționate estimate greșit la mai puțin de un procent dat al timpului de execuție ideal (fără latență)? Indicatorul specificat de precizie a predicției trebuie ignorat ( Care ar trebui să fie acuratețea predicțiilor de ramificație condiționată dacă trebuie să obținem o accelerare de , (jumătate) în raport cu același procesor, dar numai cu un predictor de ramificare condiționată perfect? Exercițiul Acest exercițiu este conceput pentru a vă ajuta să înțelegeți eroarea „tubulatură este ușoară” din Secțiunea Primele patru sarcini din acest exercițiu se referă la instrucțiunile MIPS: Interpretarea instrucțiunilor si se adauga Rd Rs Rt Pcr[Rd)=Pei [Rs|+Per(Rt| b tw Rt OHMRs) Pe» |R||=riaMflTb(Pcr[Rs] '•Offset] ( ] Descrieți blocul operațional canalizat necesar pentru a suporta numai această instrucțiune Blocul dvs operativ trebuie construit pe presupunerea că singurele instrucțiuni executabile pe el vor fi instanțe ale acestei instrucțiuni ( ] Descrieți cerințele blocului de redirecționare și de detectare a coliziunilor pentru blocul dvs de operare din Exercițiul ] Ce trebuie făcut pentru a susține excepțiile legat de instrucțiunea nedefinită din blocul dumneavoastră operațional din exercițiul ? Rețineți că excepția este asociată cu o instrucțiune nedefinită Exercițiile mpo fi iniţiat de îndată ce procesorul întâlneşte o instrucţiune •* Descrieți cum ați dori să vă extindeți blocul operațional d exercițiul pentru a sprijini și această instrucțiune Blocul operațional ^-wide trebuie să fie construit pentru a suporta oricare dintre cele două instrucțiuni specificate [ ] Repetați exercițiul pentru jurnalul de blocare a operațiunilor extinse din exercițiul [ ] Repetați exercițiul pentru extinderea blocului operațional din exercițiul Exercițiul Acest exercițiu ar trebui să ne ajute să înțelegem mai bine relația dintre așteptare, proiectarea arhitecturii setului de instrucțiuni și canalizare În scopul acestui exercițiu, se presupune că avem un vroprocesor pipeline cu execuție paralelă a mai multor instrucțiuni cu anumiți indicatori: numărul de etape ale conductei, numărul de instrucțiuni paralele lansate într-un ciclu de ceas, etapa în care rezultatul ramurii condiționate este determinat și acuratețea predicției sale: Adâncime Lățimea declanșatorului Etapă de execuție a ramurilor condiționate Precizia predicției ramurilor condiționate Procentul de OTHOWWtn ramuri condiționate față de numărul total de instrucțiuni transportor a % % % % [ ] Conflictele de control pot fi eliminate prin adăugarea de sloturi de întârziere condiționată a ramurilor Câte sloturi de întârziere trebuie să urmeze fiecare ramură condiționată dacă dorim să eliminăm toate conflictele de control dintr-un procesor dat? ] Care ar fi accelerarea obținută prin utilizarea a patru sloturi condiționale de decelerare a ramurilor pentru a reduce conflictele de control în acest procesor? Să presupunem că nu există dependențe de date între instrucțiuni și că toate cele patru intervale de întârziere pot fi umplute cu instrucțiuni utile fără a crește numărul de instrucțiuni care sunt executate Capitolul Procesor Pentru a vă ușura calculele, puteți, de asemenea, să ghiciți că salturile condiționate estimate greșit apar întotdeauna la ultima instrucțiune care trebuie preluată într-un ciclu de ceas, adică nu există instrucțiuni preluate de pe o cale greșită în aceeași etapă de conductă ca instrucțiunea de ramificare condiționată Faceți din nou exercițiul dar acum presupunând că % dintre săriturile condiționate executate au toate cele patru sloturi de întârziere umplute cu instrucțiuni utile, % au doar trei instrucțiuni utile în sloturile de întârziere (al patrulea este instrucțiunea porilor), % au doar două instrucțiuni utile în sloturi de întârziere, iar %ns au instrucțiuni utile în sloturile lor de întârziere Celelalte trei sarcini din acest exercițiu se referă la următoarea buclă scrisă în C: iar pentru(l- , !-J ( )•*(!] b pentru (iO I | Traduceți această buclă C în instrucțiuni MIPS, cu condiția ca arhitectura noastră setului de instrucțiuni să necesite un interval de întârziere după fiecare instrucțiune de ramificare condiționată Încercați să umpleți sloturile de întârziere cu instrucțiuni care nu sunt operații goale (pori), dacă este posibil Puteți presupune că variabilele a, b, c і și j sunt stocate în registrele , Și și dolari [ | faceți din nou exercițiul pentru un procesor care are doi arbori de întârziere pentru fiecare salt condiționat | Câte iterații pentru bucla dvs din Exercițiul pot fi „în zbor” în conducta procesorului dumneavoastră? O iterație este considerată „în zbor” atunci când cel puțin una dintre instrucțiunile sale a fost deja preluată și nu a fost încă transmisă Exercițiul Acest exercițiu are scopul de a vă ajuta să înțelegeți mai bine ultima concepție greșită din Secțiunea , „Subestimarea caracteristicilor unui set de instrucțiuni poate dăuna conductei” Primele patru sarcini din acest exercițiu fac referire la următoarele instrucțiuni noi MIPS: Interpretarea instrucțiunilor și Iwinc Rt Offset(Rs) Per(Rt)- Payayat"[Per[К^ІKeeienieI Per(Rs)- Per(Rs]- b ador flt OKset(Rs) Per[Rt)-njH"u[per[Rs]'C"eee**e]" Per[Rt) Exerciții ■ [ ] Traduceți această instrucțiune în micro-opțiuni MIPS • , | | Cum ați modifica conducta MIPS în cinci etape și a cărui adăugare a suportului de traducere la micro-operații ar fi necesară pentru a susține această nouă instrucțiune? [ ] Dacă doriți să adăugați această instrucțiune la arhitectura de instrucțiuni MIPS, atunci spuneți-ne ce modificări ale conductei (care etape, ■wstructură în ce etape) sunt necesare pentru a direct (fără micro «■walkie-) talkie) suport pentru acest manual ] Cât de des estimați că va fi necesară această instrucțiune-*■*' Crezi ceea ce considerăm justificat adăugarea acestei instrucțiuni Având în vedere distribuția ciclurilor de execuție într-un procesor cu suport direct pentru instrucțiunea addrn, determinați accelerarea obținută prin înlocuirea acestei instrucțiuni cu o secvență de trei instrucțiuni (Іы, add și apoi sw) Să presupunem că instrucțiunea aosi este susținută cumva (magic) într-un transportor clasic cu cinci linii fără conflicte de control ) Repetați exercițiul , dar acum cu condiția ca adăugarea" să fie suportată cu adăugarea unei etape pipeline Când traduceți aoap, această etapă suplimentară poate fi eliminată Ca rezultat, jumătate din cele existente vor fi eliminate Rețineți că eliminarea întârzierilor de date se aplică numai întârzierilor care au existat înainte ca instrucțiunea „addr” să fie tradusă și nu acelor întârzieri adăugate de traducerea addm în sine Exercițiul Acest exercițiu explorează unele dintre efectele secundare inerente ale pipeline-ului, cum ar fi timpul ciclului de ceas și utilizarea resurselor hardware Primele trei sarcini din acest exercițiu se referă la codul MIPS scris cu presupunerea că procesorul nu folosește sloturi de întârziere: Capitolul Procesor și lw $ ( ) beq $ Labe) sw $ ( ) Labe': adăugați $ $ sw ( ) Presupunem" că $ - • $ b lw - ( ) sw - ( ) lw - ( ) beq $ labei add Să presupunem că - USD [ ] Ce părți ale procesorului principal cu un singur ciclu sunt folosite de toate aceste instrucțiuni? Ce piese se folosesc cel mai puțin? [ | Care este cererea pentru portul de citire și portul de scriere al blocului de memorie de date? | | Să presupunem că avem deja un design cu un singur ciclu De câți biți avem nevoie pentru registrele de conducte pentru a implementa un design pipeline? Celelalte trei sarcini din acest exercițiu presupun că componentele unității de operare au următoarele valori de latență: Memorie de instrucțiuni (GMe*n) Adder (Add) Multiplexer (Mix) ALU (ALU) Register File (Regi) Data Memory ( -Mat) Sign Extender (Slgn-extand) Aleo Shift Unit Two (Shlft-laH- ) a ps ps ps ps ps ps ps os b gc nc iOOps ps ps ps ps ps [ Comparați timpii ciclului de ceas pentru blocurile operaționale cu un singur ciclu și în cinci etape, folosind aceste latențe ale elementelor individuale [ ] faceți din nou exercițiul , dar acum cu condiția să avem nevoie doar de suport pentru G) ( ] Dacă costă USD pentru a reduce latența unei componente op-block cu ps, care ar fi costul reducerii timpului ciclului de ceas cu % în ciclul unic și canalizat desene? Exercițiul Acest exercițiu explorează eficiența energetică și relația acesteia cu performanța Obiectivele acestui exercițiu implică utilizarea mai multor metrici: consumul de energie al memoriei de instrucțiuni, al fișierului de registru și al memoriei de date Puteți presupune că toate celelalte componente ale unității de operare consumă o cantitate neglijabilă de energie Exerciții Memorie de instrucțiuni ( -Met) Citire un singur registru Scriere registru Citire date memorie Scriere date memorie L pJ pJ pJ pJ IOOpJ e pJ EOPJ pJ pJ pJ ( ) Câtă energie se cheltuiește pentru execuția adc istructului într-un proiect cu un singur ciclu și într-un proiect cu un transportor format din ■aceste etape? ( J Care instrucțiune MIPS are cea mai slabă măsură de performanță și câtă energie este cheltuită pentru execuția sa? ( ) Dacă scopul principal este reducerea consumului de energie atunci cum ați schimba designul conductei? Cu cât i la sută se va reduce consumul de energie pentru executarea instrucțiunii lw după aceste modificări? Pentru celelalte trei probleme din acest exercițiu, se presupune că componentele blocului de operare au următoarele valori de latență Puteți presupune că celelalte componente ale blocului de operare au o latență vocală neglijabilă Memorie de instrucțiuni ( -MEM) Unitate de control (Control) Registrul ALU de citire sau scriere Memoria de citire sau scriere de date (D-Mem) ps ps ps ps ps b ps ps ps ps ps [ | Care va fi impactul modificărilor dvs de la exercițiul asupra performanței? [ ] Putem elimina semnalul MemRead și forțam ca memoria de date să fie citită la fiecare ciclu de ceas, de exemplu putem avea MemRead tot timpul” Explicați de ce procesorul încă funcționează corect după o astfel de schimbare Care este impactul acestei modificări asupra frecvenței ceasului și asupra consumului? ( ) Dacă blocul inactiv consumă % din puterea consumată în starea activă, atunci câtă putere consumă memoria de instrucțiuni în fiecare ciclu de ceas? Ce procent din energia totală consumată de memoria de instrucțiuni este această energie inactivă? Exercițiul Problemele din acest exercițiu presupun că, în timpul execuției programului, ciclurile procesorului sunt „irosite” după cum urmează: un ciclu este „irosit” per instrucțiune dacă procesorul finalizează execuția acelui tip de instrucțiune într-un ciclu de ceas dat; o buclă este „irosită” de o întârziere dacă procesorul nu poate finaliza execuția unei instrucțiuni în această buclă din cauza întârzierii Capitolul Procesor adăugați bq lw „w controlați întârzierile legate de date Eu % % % % % % b % % % % % În scopul acestui exercițiu, se presupune, de asemenea, că etapele individuale ale conductei au o anumită latență și un consum de energie Stapa cheltuiește această energie pentru a-ți îndeplini munca în latența de tămâie Rețineți că energia nu este irosită în etapa MEM atunci când se execută o buclă în care nu există acces la memorie În mod similar, energia nu este irosită pe stadiul WB și pe ciclul care nu scrie în fișierul de registru În unele sarcini, se face o presupunere cu privire la modul în care se modifică consumul de energie dacă o etapă își desfășoară activitatea mai lent sau mai rapid decât este prezentat în acest tabel F ID EX MEM WB a ps / nJ ps / nJ ps / pJ ns / nJ f IOOps / pJ b CP/ pJ CP/ pJ CP/ pJ CP/ pJ ns/ nJ [ Definiți debitul (în instrucțiuni pe secundă)? [ ) Să se determine puterea disipată în wați (jouli pe secundă)? [ ] Ce etape ale conductei pot fi încetinite și cu cât de mult fără a afecta timpul ciclului? ) Este adesea posibil să sacrifici o anumită viteză într-un circuit pentru a reduce consumul de energie Să presupunem că putem reduce consumul de energie de X ori (consumul de energie nou este de /foarte din consumul de energie vechi) dacă creștem latența de X ori (latența nouă este de X ori cea veche) Cum pot fi reglate valorile de latență pentru etapele pipeline pentru a minimiza consumul de energie fără a sacrifica performanța? Faceți din nou exercițiul pentru acest procesor reconfigurat [ ) Repetați exercițiul dar acum stabilește-ți obiectivul de a minimiza costul energiei pe instrucțiune în timp ce crește timpul ciclului de ceas, dar nu mai mult de % [ ) Efectuați exercițiul , dar acum presupunând că consumul de energie este redus de X ori, cu o latență crescută de X ori Care vor fi economiile de energie în comparație cu asta ce s-a calculat la exercițiul ? Răspunsuri la întrebările de autotest Răspunsuri la întrebările de autotest Secțiunea : din : Unitate de control, unitate de operare, memorie Mod și ieșire lipsesc Secțiunea : Această afirmație este falsă Elementele de memorie bazate pe margini permit citirea și scrierea simultană fără conflicte Secțiunea : / A II: c Secțiunea : Da, semnalele Branch și ALUOpO sunt identice În plus, semnalele MemtoReg și RegDst sunt inverse unul față de celălalt Nu aveți nevoie de un invertor, trebuie doar să utilizați un semnal diferit și să schimbați pinii multiplexorului! Secțiunea : Întârzierea rezultatului executării instrucțiunii II Redirecționarea înregistrării rezultatului primei instrucțiuni de adăugare scrisă în registrul Stl Nu sunt necesare întârzieri sau transmisii de date Secțiunea : Afirmațiile și sunt corecte, iar restul afirmațiilor ei sunt adevărate Secțiunea ’ Previziunea că tranziția nu va avea loc Prevăzând că va avea loc tranziția Prognoza dinamică Secțiunea În prima instrucțiune, pentru că, logic, se execută înaintea tuturor celorlalte Secțiunea : Pentru ambele abordări Pentru ambele abordări Pentru a programa abordări La abordări hardware La abordări hardware La abordări hardware Pentru ambele abordări Aparatură se apropie La ambele abordări Secțiunea : Primele două afirmații sunt false, iar ultimele două sunt adevărate capitolul Volumetric și rapid: analiza ierarhiei memoriei În mod ideal, este de dorit să se obțină o cantitate infinită de memorie și ca orice anumit cuvânt să fie disponibil instantaneu Noi suntem forțați să recunoaștem posibilitatea de a construi o ierarhie de dispozitive de memorie, fiecare dintre ele având un volum mai mare decât precedentul, dar la un acces mai lent la el L N Birke, XX Go idshtgin și J von Neumann Introducere Introducere Încă din primele zile ale computerelor, programatorii și-au dorit cantități nelimitate de memorie rapidă Subiectele din acest capitol îi ajută pe programatori să dea viață acestei iluzii Înainte de a începe să creăm această iluzie, să ne uităm la o analogie simplă care va ilustra principiile și mecanismele cheie pe care le folosim Să presupunem că ai trebuit să scrii o lucrare semestrială în timpul studenției despre evenimente istorice importante din lumea echipamentelor informatice Stai la o masă din bibliotecă cu o selecție de cărți pe care le-ai scos de pe rafturi și le studiezi S-a dovedit că unele dintre calculatoarele importante despre care trebuia scris sunt descrise în cărțile pe care le aveți, dar nu conțin nicio informație despre computerul EDSAC Așa că te întorci la rafturi și cauți o altă carte Ați găsit o carte despre primele computere englezești, care conține informații despre EDSAC Odată ce aveți o selecție bună de literatură pe podea, există o mare probabilitate ca o mare parte din ceea ce aveți nevoie să se găsească în aceste cărți și cea mai mare parte a timpului să fie cheltuită pe muncă Același principiu ne permite să creăm iluzia unei cantități mari de memorie care poate fi accesată la fel de repede ca un dispozitiv de memorie foarte mic Așa cum nu trebuie să priviți simultan toate cărțile dintr-o bibliotecă, un program nu accesează tot codul sau datele sale cu aceeași probabilitate în același timp Altfel, ar fi imposibil să oferiți acces rapid la cea mai mare parte a memoriei și să dotați în continuare computerele cu cantități mari de memorie, la fel cum v-ar fi imposibil să puneți toate cărțile din bibliotecă pe birou și să puteți în continuare să găsiți rapid materialul dorit În ambele cazuri, atât când se lucrează într-o bibliotecă, cât și când se lucrează cu un program, se ia ca bază principiul localității Acest principiu prevede că programele accesează o porțiune relativ mică din spațiul lor de adrese în orice moment, exact în același mod cum accesați o parte foarte mică a unei colecții de bibliotecă Există două tipuri de localități: ♦ Localitate legată de timp: dacă a existat un acces la element, atunci există o probabilitate că va fi urmat în curând de un nou recurs Dacă ați adus recent o carte la masa dvs pentru vizionare, este posibil să aveți nevoie de ea din nou foarte curând * Localitate asociată cu spațiul: dacă a existat un apel către un element, atunci, cel mai probabil, va exista în curând un apel către acele elemente ale căror adrese sunt în apropiere Localitate asociată cu modificări Un principiu care afirmă că dacă un element de date a fost accesat atunci există o mare probabilitate ca un nou recurs să sufle la el la scurt timp după Legat de localitate cu spatiu Principiul localității, despre care se pretinde a fi respins că dacă a existat un acces la elementul de date, atunci există o probabilitate mare ca accesul la elementele de date la adresele învecinate să urmeze în curând Capitolul Ierarhia memoriei O structură care utilizează mai multe niveluri de memorie crește cantitatea de memorie și timpul de acces pe măsură ce se îndepărtează de procesor De exemplu, când ai găsit o carte pe primele computere engleze pentru a căuta materiale pe EDSAC, ai observat că lângă ea pe raft era o altă carte despre primele computere mecanice și ai luat această carte cu tine și ai găsit mai târziu iată ceva util pentru tine În biblioteci, cărțile pe teme similare sunt una lângă alta, crescând indicele de localitate asociat spațiului Cum este folosită localitatea legată de spațiu în ierarhia memoriei, vom vedea puțin mai târziu în acest capitol Așa cum referirea la cărțile de pe o masă este o manifestare naturală a localității, în programe, localitatea ia naștere din structuri de program simple și naturale Demonstrarea timpului-localitate Deoarece accesul secvențial la instrucțiuni este folosit în mod obișnuit, programele prezintă și o localitate mare legată de spațiu Accesurile la date sunt, de asemenea, o manifestare naturală a localității legate de spațiu De exemplu, accesul secvenţial la elementele unui tablou sau la o înregistrare ar avea în mod natural un grad ridicat de localitate legată de spațiu Principiul localității este folosit cu succes prin implementarea memoriei computerului ca ierarhie de memorie Această ierarhie constă din mai multe niveluri de memorie cu viteze și dimensiuni diferite Dispozitivele de memorie mai rapide au un cost pe bit mai mare decât dispozitivele de memorie mai lente, deci au un volum mai mic Astăzi, tehnologiile GR sunt folosite pentru a construi ierarhia memoriei RAM este alcătuită din memorie dinamică cu acces aleatoriu (DRAM), iar nivelurile mai apropiate de npoueccopy (memoria cache) utilizează memoria statică cu acces aleator (SRAM) DRAM are un cost pe bit mai mic decât SRAM, deși este substanțial mai lent că DRAM folosește o zonă mult mai mică pe bit, iar celulele DRAM au o capacitate mai mare; Diferența de viteză se datorează mai multor factori simultan A treia tehnologie folosită pentru implementarea celui mai mare și mai lent nivel al ierarhiei este de obicei discul magnetic (Multe dispozitive încorporate folosesc memorie flash în loc de discuri; vezi Secțiunea ) Timpul și costul de acces al biților de date variază foarte mult în funcție de care dintre aceste tehnologii este utilizată Aceste cifre, în raport cu valorile anului , sunt prezentate în tabelul următor Introducere Stocare în memorie Timp de acces obișnuit, ns Preț în dolari per GB în MM , - , ■tor NI - - hy disc - , - Datorită diferențelor de cost și timp de acces, este de preferat să se construiască emshііy sub forma unei ierarhii de niveluri Pe fig Figura arată că cea mai rapidă memorie este mai aproape de procesor, în timp ce memoria mai lentă și mai puțin costisitoare se află sub acesta Scopul este de a oferi utilizatorului cât mai mult software cu cea mai ieftină tehnologie, oferindu-i acces la viteza oferită de cea mai rapidă memorie Viteză omyam Procesor Cea mai mică ea însăși* Înaltă Semyaya nmikaya cea mai mare Seme* niyaeya Me'zh Nu, deoarece toate programele petrec mult timp accesând memorie, tema memoriei este invariabil factorul principal în determinarea performanței Dependența de a obține performanțe ridicate de o ierarhie a memoriei înseamnă că programatorii care sunt obișnuiți să gândească memoria ca un fel de dispozitiv intern de stocare cu acces aleatoriu, acum, pentru a obține performanțe ridicate, trebuie să înțeleagă că memoria este o ierarhie complexă importanța unui astfel de concept de sistem de memorie prezentată în exemplele următoare, în special va fi arătată în „Fig Orez Fiecare pereche de niveluri din ierarhia memoriei poate fi reprezentată ca niveluri superioare și inferioare În cadrul fiecărui nivel, o porțiune din informațiile prezente sau absente în el se numește bloc sau streașină De obicei, la copierea oricăror date între niveluri, întregul purice este transferat deodată Deoarece sistemele de memorie joacă un rol important în atingerea performanțelor înalte, designerii de computere acordă o mare atenție acestor sisteme și dezvoltă mecanisme complexe pentru a le îmbunătăți performanța Acest capitol va acoperi principalele idei conceptuale, dar multe simplificări și abstracții vor fi folosite pentru a menține lucrurile simple Vedere generala Programele prezintă atât o localitate legată de timp, adică o tendință de a reutiliza elementele de date solicitate recent, cât și o localitate bazată pe spațiu, adică o tendință de a accesa elementele de date care se află în vecinătatea elementelor de date solicitate recent ultimele date solicitate mai aproape de procesor Și localitatea Capitolul asociat cu spațiul este folosit de aceștia prin mutarea blocurilor formate din mai multe cuvinte învecinate în memorie la nivelurile superioare ale ierarhiei Pe fig Figura arată că ierarhiile de memorie mai apropiate de procesor utilizează tehnologii de stocare mai mici și mai rapide Astfel, o cerere care este satisfăcută la cel mai înalt nivel al ierarhiei poate fi procesată mai rapid Apelurile nesatisfăcute sunt redirecționate către nivelurile inferioare ale ierarhiei, care au mai mult volum, dar performanță mai lentă Dacă rata de accesare este suficient de mare, ierarhia memoriei are un timp de acces efectiv care se apropie de cel al stratului cel mai înalt (și cel mai rapid) și o dimensiune proporțională cu acesta care este caracteristic celui mai jos (și mai voluminos) nivel De fapt, majoritatea sistemelor au o structură de memorie cu adevărat ierarhică, ceea ce înseamnă că datele nu pot fi prezente la nivelul i decât dacă sunt prezente și la nivelul i + Orez Această diagramă arată structura ierarhiei memoriei: pe măsură ce distanța față de procesor crește, crește și volumul Această structură, cu un set propriu de mecanisme de lucru, permite procesorului să aibă un timp de acces care este determinat în principal de nivelul I al ierarhiei, având totuși o capacitate de memorie corespunzătoare nivelului n Întruchiparea și viața acestei iluzii este Deși partea inferioară a ierarhiei este de obicei disc local, unele sisteme folosesc bandă sau un server de fișiere accesibil printr-o rețea locală ca următoarele niveluri de ierarhie Autotestare Care dintre următoarele afirmații sunt în general adevărate? Memoria cache folosește localitatea asociată cu timpul La citire, valoarea returnată depinde de blocul care se află în cache Costul principal al ierarhiei memoriei este la nivelul superior Volumul principal al ierarhiei memoriei se află la nivelul cel mai scăzut Elemente de bază ale memoriei cache Elementele de bază ale memoriei cache Cache: un loc retras care vă permite să ascundeți sau să stocați lucruri tWehaer's Nete World Dictionary of the American Laguafțe”, Thtrd Coliere Eduion, JA/ În exemplul bibliotecii noastre, tabelul funcționează ca un cache - un loc retras pentru a stoca lucruri (cărți) care trebuie studiate Numele cache a fost ales pentru a reprezenta un nivel suplimentar de ierarhie a memoriei între procesor și memoria principală în primul computer comercial Un cache este un simplu înlocuitor pentru dispozitivele de memorie din blocul de operare discutat în capitolul Dar în zilele noastre utilizarea cuvântului cache în acest sens a devenit dominant, acest termen este folosit și pentru a se referi la orice dispozitive de stocare concepute să utilizeze principiul accesului local Memoria cache a apărut pentru prima dată pe computerele de cercetare la începutul anilor , iar puțin mai târziu, în același deceniu, a apărut pe computerele concepute pentru controlul producției; astăzi, memoria cache este un atribut al tuturor calculatoarelor mainframe, de la servere la procesoare încorporate cu putere redusă În această secțiune, ne vom uita mai întâi la o memorie cache foarte simplă, în care procesorul face cereri după cuvânt, iar blocurile constau, de asemenea, dintr-un cuvânt (Cititorii deja familiarizați cu elementele de bază ale memoriei cache pot sări peste Secțiunea ) Figura - arată acest cache simplu înainte și după solicitarea unui element de date care nu a fost prezent inițial Înainte de solicitare, în memoria cache exista o colecție de date, la care ultimele referințe erau X,, X , , Xi, iar procesorul solicita cuvântul Xo, care nu se află în memoria cache Această cameră nu a avut succes, iar cuvântul Ho a fost mutat din RAM în cache Când luăm în considerare scenariul din fig Apar două întrebări De unde știm că un element de date este în cache? Și multe, dacă sunt acolo, cum le găsim? Răspunsurile la aceste întrebări sunt interdependente Dacă fiecare cuvânt poate cădea într-unul bine definit și în același loc în memoria cache, atunci găsiți cuvântul care se află în memoria cache nu va fi greu Cea mai simplă modalitate de a determina locația cache-ului pentru fiecare cuvânt a fost determinarea locației cache-ului pe baza adresei cuvântului din memorie Această structură de cache se numește mapată directă deoarece fiecare locație de memorie se mapează direct la o locație de cache De exemplu, aproape toate dispozitivele cache cu mapare directă folosesc următoarea proiecție pentru a găsi un bloc: nu: (Adresa blocului) modulo (Numărul de blocuri din cache) Dacă numărul de intrări din cache este o putere de , atunci modulo poate fi calculat pur și simplu utilizând jurnalul inferior (cache și dimensiunea blocului) Cache mapat direct O structură cache în care fiecare locație de memorie se mapează la o locație cache specifică Capitolul Analiza ierarhiei memoriei mari și rapide kah) fragmente ale adresei Astfel, un cache cu opt blocuri folosește cei mai puțin semnificativi trei biți ( - ') ai adresei blocului De exemplu, Figura arată cum memoria cu adrese între / ( ) și | ( ) este mapată la locațiile , ( ) și n( ) într-un cache mapat direct de opt cuvinte X" c) înainte de umplerea nі Х„ ) după referire la Х„ Orez Evacuarea memoriei cache chiar înainte și tăierea după accesul la cuvântul X, care lipsea inițial din cache Acest acces provoacă o pierdere a memoriei cache, determinând cache-ul să preia X din memorie și să insereze acel element în sine Deoarece fiecare locație de cache poate conține conținut din diferite locații de memorie, de unde știm dacă datele se potrivesc cu cuvântul solicitat sau nu? Adică, de unde știm dacă cuvântul solicitat este sau nu în memoria cache? Răspunsul la această întrebare va fi dat prin adăugarea de etichete în memoria cache Eticheta conține informațiile despre adresa necesare pentru a identifica potrivirea unui cuvânt din memoria cache cu cuvântul solicitat Eticheta ar trebui să conțină numai cele mai vechi parte a adresei corespunzătoare biților care nu sunt utilizați ca index în memoria cache De exemplu, în fig În Figura , avem nevoie doar de cei doi superiori dintre cei cinci biți de adresă din etichetă, deoarece cei trei biți inferiori formează unitatea de index a adresei care selectează blocul Dezvoltatorii omit biții de index deoarece sunt redundanți, deoarece, prin definiție, câmpul de index al oricărei adrese de bloc din cache trebuie să fie acel număr de bloc TVG Un câmp • din tabelul utilizat pentru ierarhia memoriei care conține informațiile de adresă necesare pentru a determina dacă blocul asociat din ierarhie se potrivește cu cuvântul solicitat Un pic de încredere Câmp din tabelele de ierarhie de memorie care indică faptul că blocul său asociat în ierarhie conține date valide De asemenea, avem nevoie de o modalitate de a determina dacă un bloc de cache nu conține informații valide Cache-urile pot fi încă goale prezentat în fig Astfel, trebuie să știm care ar trebui să fie eticheta pentru astfel de intrări; Noțiuni de bază pentru cache normalizat Cea mai comună metodă este adăugarea unui n-bit pentru a indica dacă intrarea conține o adresă validă Dacă times-toc ve setat atunci nu poate exista nicio potrivire pentru acest bloc fwc Un cache mapat direct cu opt intrări Cu adresele stratului de memorie, am de la la , mapate la aceeași memorie cache „meta” Deoarece există opt cuvinte în memoria de erori, adresa X este mapată pe cuvântul X modulo B din memoria cache mapată directă ,, , și sunt mapate la intrarea cache și adresele , , și sunt mapate la intrarea din cache Restul acestei secțiuni se va concentra pe explicarea modului în care cache-ul gestionează citirea În general, citirea este puțin mai ușor de rezolvat decât scrisul, deoarece citirea nu ar trebui să modifice conținutul cache-ului După ce învățăm elementele de bază despre cum funcționează citirile și gestionăm erorile din memoria cache, ne vom uita la modelele de cache pentru computere reale și ne vom ocupa de întrebarea cum modul în care aceste constructe se ocupă de scris Accesarea cache-ului Următoarele arată o secvență de nouă accesări la memorie pentru fiecare cache gol de opt blocuri, inclusiv acțiunea întreprinsă pentru fiecare acces Figura arată cum se modifică conținutul cache-ului după fiecare ratare Deoarece există opt blocuri în cache, cei mai puțin semnificativi trei biți ai adresei scot numărul blocului: Capitolul Adresă Adresă zecimală Adresă binară Hitamia sau între Blocul cache specificat (unde sunt găsite sau plasate datele) , miss ( b) ( , mod ) - , alunecare ( , inchi) ( , mod ) - , lovit ( , mod ) - , , lovit ( , mod )- , miss( , d) ( , mod ) = OOO , miss( , d) ( , mod - , , lovit ( OOOO, mod ) - , , miss ( , e) ( , mod ) - , , apăsați AND OOOO, mod )- Deoarece memoria cache nu este plină, primele accesări vor eșua; legendele din fig descrie acțiunile pentru fiecare acces la memorie La al optulea acces, apare o cerință conflictuală pentru bloc Cuvântul de la adresa ( ) ar trebui să fie plasat în blocul cache ( ,) Prin urmare, trebuie să înlocuiască cuvântul de la adresa ( ) care este deja în blocul cache ( ,) Acest comportament permite cache-ului să profite de localitatea asociată cu timpul, cuvintele care au fost accesate recent înlocuind acele cuvinte care au fost accesate puțin mai devreme Această situație este o analogie directă cu nevoia de a avea o carte de pe raft și nevoia de spațiu suplimentar pe masă - un fel de carte care este deja pe el trebuie returnat la raft Într-un cache mapat direct, există un singur loc pentru a pune elementul nou solicitat și, prin urmare, o singură opțiune de înlocuire Știm unde să mergem în cache pentru fiecare adresă posibilă: biții mai puțin semnificativi ai adresei pot fi folosiți pentru a găsi o intrare unică în cache la care adresa ar fi putut fi mapată Figura arată deoarece adresa către care se efectuează apelul este împărțită la: ♦ câmpul de etichetă care este utilizat pentru comparare cu valoarea câmpului de etichetă cache, ♦ memoria cache inZehs care este folosită pentru selectarea blocurilor Indexul blocului cache, împreună cu conținutul etichetei blocului cache, determină în mod unic adresa de memorie a cuvântului conținut în blocul cache Deoarece câmpul index este folosit ca adresă pentru a accesa memoria cache și pentru că calea și biții au o valoare *, numărul total de intrări în cache mapate directe trebuie să fie un multiplu al unei puteri de În arhitectura MIPS, pentru un cuvânt aliniat să fie un multiplu de patru octeți, cei mai puțin semnificativi doi biți Elemente de bază ale memoriei cache Adresele Shivdoy definesc un octet într-un cuvânt Prin urmare, cele mai mici două unități sunt ignorate atunci când alegeți un cuvânt dintr-un bloc Numărul total de biți necesari pentru cache este o funcție de dimensiunea cache-ului și de dimensiunea spațiului de adrese, deoarece wid-ul include atât spațiu de stocare, cât și etichete constă din mai mulți elefanți Pentru următoarea situație: ♦ adresa de octeți de de biți; ♦ cache cu hartă directă; ♦ dimensiunea memoriei cache este de * blocuri, prin urmare, n mari sunt folosite pentru index, ♦ dimensiunea blocului este de n cuvinte ( "' octeți), deci m biți sunt utilizați pentru elefantul din interiorul blocului și doi biți sunt utilizați pentru partea de octeți a adresei, dimensiunea câmpului etichetei este - (u + t + ) Numărul total de biți din memoria cache mapată directă este * k (dimensiunea blocului + dimensiunea etichetei + dimensiunea câmpului de încredere) Deoarece dimensiunea blocului este de " cuvinte ( " biți) și avem nevoie de un bit pentru câmpul de validitate (V), numărul de biți dintr-un astfel de cache ar fi e x ( - x ♦ ( - i m - ) + ) - ' x ( "x + - l - lі) Deși dimensiunea reală în biți este afișată aici, convenția de denumire este de a exclude dimensiunea etichetei și câmpul de valabilitate și de a lua în considerare numai dimensiunea datelor Prin urmare, memoria cache din Fig se numește cache de KB Numărul de biți din cache Care este numărul total de biți necesari pentru un cache mapat direct de K octeți de date și patru blocuri de cuvinte, presupunând că se utilizează adresarea pe de biți? Răspuns Știm că KB înseamnă K ( ,}) cuvinte Cu o dimensiune a blocului de cuvinte ( J) memoria cache conține ( ”) blocuri Fiecare bloc are * sau de biți de date plus o etichetă în care - - - biți, plus bitul de valabilitate Deci dimensiunea totală a memoriei cache este '" x Mach-urile la accesarea memoriei cache sunt satisfăcute prin accesarea memoriei ₽peratnnaya, care este construită pe DRAM-chiements În Secțiunea , avem că principalele caracteristici ale elementelor DRAM sunt costul și densitatea Deși este dificil să se reducă latența de recuperare a primului cuvânt din memorie, suprasarcina greșită poate fi redusă prin creșterea capacității de memorie de la memorie la cache Procesorul este în mod tradițional conectat la memorie printr-o magistrală (Așa cum se va arăta ■ capitolul această tradiție se schimbă, dar tehnologia de conectare este mai modernă ■ Acest capitol nu joacă niciun rol, așa că vom folosi germinul • vin ) Frecvența de ceas a magistralei este de obicei mult mai mică decât cea a procesorului operarea acestui autobuz afectează costurile ratelor Pentru a evalua impactul diferitelor moduri de organizare a memoriei, să definim un set de componente ipotetice ale timpului de acces la memorie Prepoziții m că se compune din: ♦ ciclu de ceas magistrală necesar pentru a trimite adresa ♦ cicluri de ceas de magistrală pentru a inițializa accesul la fiecare element DRAM ♦ ciclu de ceas de magistrală pentru a trimite un cuvânt de date Dacă blocul nostru de cache are patru cuvinte și avem o bancă DRAM de un cuvânt, suprasarcina ratată este de ♦ x ♦ * ■ - cicluri de ceas al magistralei de memorie Astfel, numărul de octeți transferați într-un ciclu de ceas de magistrală cu o ratare va fi egal cu Pe fig prezintă trei opțiuni pentru proiectarea sistemului de memorie Prima opțiune corespunde ipotezelor noastre: memoria are o lățime de un cuvânt și toate accesările sunt efectuate secvenţial În a doua variantă, lățimea de bandă către memorie este mărită prin extinderea memoriei și a magistralei dintre memorie și procesor, ceea ce permite accesul paralel la mai multe cuvinte bloc deodată În a treia variantă, lățimea de bandă este mărită prin extinderea memoriei , dar nu și vârfurile de conectare plătim același preț pentru transmiterea fiecărui cuvânt, dar putem evita să plătim mai mult de o latență de acces Să vedem cum celelalte două opțiuni îmbunătățesc costul ratat de de cicluri al primei opțiuni, prezentat în Figura , a Extinderea memoriei și a magistralei duce la o creștere proporțională a lățimii de bandă a memoriei, reducând în același timp costurile pentru astfel de componente Capitolul ratați cum ar fi timpul de acces și timpul de transfer al datelor Cu RAM de două cuvinte, suprasarcina scade de la de cicluri de ceas al magistralei de memorie la + ( * ) + * ” de cicluri de ceas al magistralei de memorie Debitul per ratare este apoi de , (aproape de două ori mai mare) octeți per ciclu de ceas de magistrală pentru o memorie largă de două cuvinte Costul principal al acestei îmbunătățiri este magistrala mai largă și potențiala creștere a timpului de acces la cache datorită multiplexorului și logicii de control dintre procesor și cache Provesov IMHJ ) organizarea mai largă a memoriei ■) organizarea memoriei cu intercalare de adrese Memorie i) argalizarea unei memorie larg într-un cuvânt fmc Principala metodă de a obține o lățime de bandă mai mare a memoriei este creșterea lățimii fizice sau logice a sistemului de memorie În această figură, lățimea de bandă a memoriei este mărită în două moduri În cel mai simplu design, a memoria este utilizată în care toate componentele au o lățime de un cuvânt, designul b prezintă memorie extinsă, magistrală și cache design a prezintă o magistrală îngustă și cache intercalată design b, logica dintre cache și procesor constă dintr-un multiplexor utilizat la citire și logica de control pentru a actualiza cuvintele cache corespunzătoare atunci când scrieți În loc să extindă întreaga cale dintre RAM și memoria cache, cipurile de memorie pot fi organizate în bănci pentru a citi și scrie mai multe cuvinte simultan într-un timp de acces, în loc să citească sau să scrie doar un cuvânt la un moment dat Fiecare bancă poate fi un cuvânt lat spre nu Noțiuni de bază pentru cache Puteți modifica lățimea magistralei și a memoriei cache, dar trimiterea unei adrese la mai multe *m le permite tuturor să citească în același timp Această schemă, care &B * "a * - este alternativă păstrează avantajul de cost unic al unei memorie ^■mtnoet complete De exemplu, în prezența a patru bancor, timpul de primire a *wa de patru cuvinte constă într-un ciclu de transmitere a adresei și citire a zarro-ului ■ bănci, cicluri pentru toate cele patru bănci pentru acces la memorie și cicluri ѵ trimiterea a patru cuvinte înapoi în cache introduceți +( хі )- > de la celelalte, de patru ori debitul de scriere ■ reducerea latenței cache-ului de scriere După cum vom vedea, strategia de scriere alternativă face intercalarea și mai atractivă Datorită utilizării pe scară largă a memoriei cache și a dorinței de a avea blocuri de dimensiuni mari, producătorii de DRAM au asigurat accesul local la date dintr-o serie de locații consecutive în DRAM Cel mai O dezvoltare recentă se numește Double Data Rate (DDR) DRAM Memoria cu dublă viteză de date Numele său se referă la transferul de date atât pe marginea ascendentă, cât și pe cea descendentă a ceasului, rezultând în ■dublarea debitului așteptat cu viteza de ceas disponibilă și lățimea datelor Pentru a obține acest debit mare, elementele DRAM interne sunt organizate în bănci de memorie intercalate Avantajul acestei optimizări este că folosește circuite electrice situate în principal pe elemente DRAM, ceea ce crește ușor costul sistemului, realizând în același timp o creștere semnificativă a debitului Clarificare Cipurile de memorie scot mai mulți biți simultan, de obicei de la la , în numărul era cel mai popular număr Descriem organizarea RAM ca d ' w unde d este numărul de locații adresabile (adâncimea) și u este rezultatul (sau lățimea fiecărei locații) Elementele DRAM sunt organizate logic în tabele dreptunghiulare, iar timpul de acces este împărțit în acces pe rând și acces pe coloană În elementele DRAM, un rând este stocat în buffer Bufferele funcționează ca SRAM; prin schimbarea adresei coloanei până atunci atâta timp cât linia următoare nu este accesată, biții individuali pot fi accesați aleatoriu în buffer Această caracteristică modifică semnificativ timpul de acces, deoarece timpul de acces la biții din șir este mult mai mic Pe fig Figura arată cum s-au schimbat densitatea, costul și timpul de acces al elementelor DRAM de-a lungul anilor Pentru a îmbunătăți interfața cu procesoarele, a fost adăugat un temporizator elementelor DRAM și acestea au devenit cunoscute sub numele de elemente DRAM sincrone sau SDRAM Avantajul memoriei SDRAM este că utilizarea unui cronometru elimină nevoia de a pierde timpul sincronizând memoria și procesorul Capitolul Clarificare O modalitate de a evalua performanța sistemelor de memorie este utilizarea benchmark-ului Stream (McCalp residentio sunt mici, putem combina citirile și scrierile folosind un miss overhead și unul miss overhead: - Numărul de accesări la memorie Numărul de cicluri de așteptare citite х per program x Rata ratată x Costul ratat De asemenea, putem factoriza această expresie: ѵ Numărul de instrucțiuni Numărul de cicluri de așteptare în memorie -x Per program Rata lipsă ,, x - x Costuri lipsă pe instrucțiune Să ne uităm la un exemplu simplu pentru a ajuta la înțelegerea impactului performanței memoriei cache asupra performanței procesorului Exercitiul Calculul performanței cache-ului Presupunând că rata de pierderi pentru accesările în memoria cache a instrucțiunilor este de % iar rata de pierdere a memoriei cache a datelor este de % Nu lipsește niciodată când este accesat Să presupunem că frecvența tuturor descărcărilor și salvărilor este de % Răspuns Numărul de cicluri de așteptare în memorie pentru erori asociate cu accesul la memoria cache de instrucțiuni, în calcul, și numărul de instrucțiuni (I) este egal cu Cicluri la greșeli în primirea instrucțiunilor > I x % * " " I Cu o frecvență a tuturor descărcărilor și economiilor egală cu % putem determina numărul de cicluri de așteptare ale memoriei pentru pierderile din memoria cache Cicluri pentru achiziția datelor rate « I x % * % x - , * I Numărul total de așteptări de memorie ar fi , I + , I - , Adică mai mult de trei așteptări de memorie per instrucțiune În consecință, IPC global, Capitolul inclusiv ciclurile de așteptare în memorie, rangurile ♦ - Deoarece numărul de instrucțiuni sau viteza ceasului nu s-au schimbat, raportul timpilor procesorului este Timp CPU cu întârzieri z * CP ^^^ * Timp de ciclu Timp CPU cu cache ideal / xCP/ui(n| x Timp de ciclu Z ^ ">, ^ , Performanța cu memorie yush perfectă este mai bună în - = , ori Ce se întâmplă dacă procesorul este mai rapid decât sistemul de memorie? Timpul petrecut în așteptarea memoriei va ocupa o proporție tot mai mare din timpul de execuție a sarcinii; legea lui Lmdahl discutat în capitolul ne amintește de acest fapt Câteva exemple simple arată cât de gravă poate fi această problemă Să presupunem că în exercițiul anterior am accelerat computerul prin reducerea CPI-ului acestuia de la la i, fără a modifica frecvența ceasului, care poate să fie efectuate folosind o conductă avansată Atunci un sistem cu erori de cache ar avea un CPI de ♦ , - , , în timp ce un sistem cu un cache perfect nu ar avea —— = de , ori mai rapid Proporția timpului de execuție a sarcinii petrecut în așteptarea memoriei va crește de la inainte de % % În mod similar, creșterea vitezei de ceas fără a face modificări sistemului de memorie va crește, de asemenea, penalizarea de performanță asociată cu pierderile de cache Exemplele și ecuațiile anterioare presupun că timpul de accesare ns nu este un factor în determinarea performanței memoriei cache Este clar că, pe măsură ce timpul de accesare crește, timpul total de accesare a unui cuvânt din sistemul de memorie va crește, ceea ce poate provoca un ciclu de ceas al procesorului a creste Vom analiza mai multe exemple despre cum pot crește timpul de accesare, un astfel de exemplu este creșterea dimensiunii cache-ului Este destul de evident că un cache mai mare va avea un timp de acces mai lung, la fel ca și cum tabelul bibliotecii ar fi foarte Măsurarea și îmbunătățirea performanței memoriei cache mare (să zicem, trei metri pătrați), apoi purtați cartea potrivită pe această masă și chiar mai mult Creșterea timpului de accesare vă va forța, cel mai probabil, să adăugați încă o etapă la conductă, poate dura câteva cicluri pentru a intra în memoria cache Deși impactul unei conducte mai profunde asupra performanței este mai greu de calculat Mai devreme sau mai târziu, creșterea timpului de accesare pentru o memorie cache mai mare poate anula complet efectul de îmbunătățire a eficienței accesului conducând la o scădere a performanței procesorului Pentru a documenta impactul asupra performanței altor timpi de acces, atât asupra accesărilor, cât și a erorilor, dezvoltatorii folosesc uneori timpul mediu de acces la memorie (AM AT) ca o modalitate de a explora modele alternative de memorie cache Timpul mediu de acces la date ține cont atât de hit-uri și rateuri, cât și de frecvența diferitelor accesări; i se poate da următoarea ecuație AMAT - B|>schimbarea loviturii + rata de ratare * Cost ratat Exercitiul Calcularea timpului mediu de acces la memorie Definiți un AMAT pentru un procesor cu un timp de ciclu tipic de ns un cost de ratare și de cicluri de ceas, o rată de ratare egală cu , rateuri și ■n avansează la blocul , acesta este înlocuit cu un flare de , deoarece Luke a avut o lipsă mai spinoasă de lovituri decât blocul Un cache dual-asociativ are patru rateuri, unul mai puțin decât cache direct memorie mapată Cache-ul asociativ imo complet are patru Lucs (într-un set); fiecare bloc de memorie poate fi stocat în orice bloc cache Adresa blocului de memorie care este accesat Loviți sau ratați Conținutul blocurilor cache după acces Bloc Bloc Bloc Bloc lipsă de memorie(O) pierderi de memorie) Memorie[ ] hit Memorie(O) Memorie(v) pierderi de memorie) Lam( ) Lam(b) hit Memory| ) Memory) ) Memory) Pentru această serie de accesări, trei rateuri sunt cel mai bun rezultat posibil, deoarece accesările sunt făcute la trei adrese unice de hașuri Rețineți că dacă folosiți opt blocuri în memoria cache, un cache asociativ cu două canale nu ar avea deloc înlocuiri ( verificați-l singur) și ar avea același număr de rateuri ca un cache complet asociativ În mod similar, dacă ar fi folosit Ibliukov atunci toate cele trei cache-uri ar avea același număr de erori Chiar și acest exemplu simplu arată că dimensiunea cache-ului și asociativitatea sunt foarte dependente de performanța cache-ului Cât de mult a fost redus rata de ratare prin asociativitate? În tabel Figura prezintă o îmbunătățire pentru un cache de date de KB Capitolul Mare și rapid: Analiza ierarhiei memoriei Bloc de cuvinte și asociativitate variind de la maparea directă la până la opt canale Raportul de pierderi scade cu aproximativ % atunci când treceți de la asociativitatea cu un singur canal la asociatitatea fără canal, dar efectele reducerii sale atunci când treceți la mai multe canale de asociativitate nu sunt la fel de impresionante Tabelul Rata de pierdere a memoriei cache a datelor pentru o organizație similară cu cea utilizată de procesorul Intrinsity FastMATH pentru benchmark-urile SPEC , cu asociativitatea cuprinsă între unul și opt canale Aceste rezultate pentru programe SPEC sunt de la (Hennessy și Patterson, ) Rata ratată de acces la date asociate , % , % , % , % Blocați locația în cache Acum să luăm în considerare problema găsirii unui bloc într-un cache cu asociativitate multiplă Ca și în cazul unui cache mapat direct, fiecare bloc dintr-un cache cu multi-asociativitate include o etichetă de adresă care dă adresa blocului Eticheta fiecărui bloc de cache din setul corespunzător este verificată pentru a vedea dacă se potrivește cu adresa blocului de la procesor Figura prezintă părțile constitutive ale unei adrese Valoarea indexului este utilizată pentru a selecta setul care conține adresa de interes, iar etichetele tuturor blocurilor din set trebuie căutate Deoarece viteza este importantă aici, toate etichetele din setul selectat sunt scanate în paralel Ca și în cazul unui cache complet asociativ, o căutare secvențială va avea un timp de accesare prea lung pentru un cache cu asociativitate multiplă Tag Index Block Offset | Orez Cele trei componente ale unei adrese cache sunt asociate multiple sau mapate directe Indexul este folosit pentru a selecta un set, apoi eticheta este folosită pentru a selecta un bloc prin compararea cu un bloc din setul selectat Decalajul bloc este adresa datelor dorite din bloc Dacă dimensiunea totală a memoriei cache este aceeași, creșterea numărului de canale de asociativitate va crește numărul de blocuri din set, ceea ce va corespunde numărului de comparații simultane necesare pentru efectuarea unei căutări paralele: fiecare dublare a canalelor de asociativitate dublează numărul de blocuri în mulţime şi înjumătăţeşte numărul de mulţimi În consecinţă, fiecare dublare a canalelor de asociativitate reduce dimensiunea indexului cu Măsurarea și îmbunătățirea performanței memoriei cache „chan digit și mărește dimensiunea etichetei cu o cifră Într-un cache complet asociativ, există un singur set și toate blocurile trebuie verificate în paralel Prin urmare, nu există indici în el și întreaga adresă este comparată cu eticheta fiecăruia, excluzând offset-ul blocului Cu alte cuvinte, caută în întreaga memorie fără nicio indexare Într-un cache mapat direct, este nevoie de un singur comparator deoarece o intrare poate fi doar într-un bloc, iar accesarea cache-ului se face pur și simplu prin indexare Pe fig Figura arată că sunt necesari patru comparatori pentru un cache asociativ de patru milioane, precum și un ■ Plexor -la-I pentru a selecta dintre patru potențiali membri ai ■setului văzut Accesarea cache-ului constă în indexarea setului corespunzător urmată de căutarea etichetelor setului Costul suplimentar al unui cache xoiii itive include comparatori și orice întârzieri impuse de nevoia de comparații și selecții între elementele setate Alegeți în orice ierarhie de memorie între maparea directă ■ de asemenea asociativitatea multiplă sau completă va depinde de costul unei rateuri în comparație cu costul implementării asociativității, atât în timp, cât și în necesitatea echipamentelor suplimentare Clarificare Memoria adresabilă conținutului (CAM) este un circuit electric care combină compararea și stocarea datelor într-un singur dispozitiv În loc să furnizați o adresă și să citiți un cuvânt ca în RAM, furnizați date și memoria CAM caută o copie și returnează indexul rândului corespunzător Memoria asociativă permite proiectanților de cache să implementeze un set de asociativitate de nivel mai înalt decât acesta pentru care este necesară asamblarea echipamentelor din elemente SRAM și comparatoare În , dimensiunea mai mare și consumul de energie al memoriei CAM, în general, a dus la faptul că memoria asociativă cu două și patru canale a fost creată folosind elemente SRAM standard și opt- canal și superioare au fost create folosind elemente CAM Selectarea unui bloc de înlocuit Atunci când apare o pierdere într-un acces direct în cache, blocul solicitat trebuie să se potrivească doar într-o locație bine definită, înlocuind blocul care ocupă acea locație Într-un cache asociativ, avem posibilitatea de a alege unde să plasăm blocul solicitat și, prin urmare, de alegerea blocului de înlocuit Într-un cache complet asociativ, toate blocurile sunt candidate pentru înlocuire În memoria cache cu multiple asociativitatea, trebuie să facem o alegere dintre blocurile setului intenționat Schema cea mai frecvent utilizată este schema cea mai puțin utilizată (LRU) utilizată în exercițiul anterior Cel mai lung sistem neutilizat (LRU) Schema de înlocuire în care unitatea care nu a fost folosită pentru cea mai lungă perioadă de timp este declarată a fi înlocuită Capitolul Mare și rapid: Analiza ierarhiei memoriei Schema LRU înlocuiește blocul care nu a fost solicitat pentru cea mai lungă perioadă de timp În exemplul cache-ului de asociativitate multiplă din exercițiul anterior a fost folosită schema LRU, motiv pentru care blocul Memory(O) a fost înlocuit cu Bloc de memorie(b) Înlocuirea LRU este implementată ținând evidența când fiecare element din set este utilizat în relație cu alte elemente din set Pentru un cache asociativ cu două direcții, urmărirea utilizării poate fi implementată ținând un bit în fiecare set și setând valoarea acestuia pentru a indica elementul când este accesat Odată cu creșterea numărului de canale de asociativitate, implementarea LRU va fi mai dificilă; Secțiunea va afișa o schemă alternativă de înlocuire Rms Implementarea unui cache asociativ cu patru canale necesită patru comparatoare și un multiplexor -la- Comparatoarele determină ce element al setului favorit (dacă există) corespunde etichetei Ieșirea comparatorului este utilizată pentru a selecta date dintr-unul din cele patru blocuri ale setului indexat, folosind un multiplexor cu un semnal de selecție decodificat în unele implementări, Semnalele de activare a ieșirii componentei de date disponibile în elmengs cache JAM, pot fi utilizate pentru a selecta o intrare din setul care controlează ieșirea Semnalul de activare a ieșirii provine de la comparatoare, determinând elementul corespunzător să controleze ieșirile de date Măsurarea și îmbunătățirea performanței memoriei cache Exercitiul Dependența dimensiunii etichetei de numărul de canale de asociativitate Creșterea canalelor de asociativitate necesită mai mulți comparatori și mai multe lățimi de etichete per bloc de cache Presupunând blocuri cache de K, fiecare bloc este de patru cuvinte și se utilizează adresarea pe de biți, determinați numărul total de seturi și numărul total de etichete de biți pentru memoria cache cu direct cartografiere, precum și pentru memoria cache cu un singur canal cu patru canale și asociativitate deplină Răspuns Pentru că avem (- ') octeți pe bloc Adresarea pe de biți oferă - - de biți pentru a fi utilizați ca index și etichetă Există tot atâtea seturi câte blocuri există într-un cache mapat direct și așa mai departe Prin urmare biți pe index deoarece Ior,( K) este ; prin urmare, totalul este ( - ) * K - * K - Kbps Fiecare grad de asociativitate reduce numărul de seturi la jumătate, reducând astfel numărul de biți folosit pentru a indexa cache-ul cu unu, iar numărul de biți pe etichetă crește tot cu unul Astfel, pentru un cache asociativ cu două canale, vor exista K seturi, iar numărul total de biți per etichetă va fi ( ) * * * K- * K - Kbps Pentru un cache asociativ cu canale, numărul total de seturi va fi de K, iar numărul total de biți de etichetă va fi ( - ) * * * K- * K- Kbits Un cache complet asociativ va avea un singur set de blocuri K și o etichetă de de biți care vor fi etichete * K " - Kb S-a redus rata de suprasarcină prin utilizarea memoriei cache pe mai multe niveluri Memoria cache este folosită în toate computerele moderne Pentru a acoperi decalajul tot mai mare dintre vitezele mari de ceas ale procesoarelor moderne și timpul din ce în ce mai lung necesar pentru a accesa elementele DRAM multe microprocesoare acceptă un nivel suplimentar de cache Al doilea nivel cache este de obicei pe același cip și este accesat dacă cache-ul primar lipsește Dacă memoria cache L conține datele dorite, costul pierderii cache L va fi timpul de acces la memoria cache L , care va fi mult mai mic decât timpul de acces la memoria principală Dacă nu există date în cache-urile L și L , va fi necesar un acces la RAM, rezultând o suprasarcină mai semnificativă Cât de semnificativă este îmbunătățirea performanței datorită utilizării memoriei cache secundare? Răspunsul la această întrebare este următorul exercițiu Capitolul Exercitiul Performanță în cache pe niveluri Să presupunem că avem un procesor cu un CPI de bază de , presupunând că toate accesările din memoria cache primară au succes și o viteză de ceas de GHz Să presupunem că timpul de acces la RAM este de ns inclusiv greutatea de gestionare a erorilor Să presupunem că rata de greșeli pentru o instrucțiune din memoria cache primară este de % Cât de mult mai rapid ar fi procesorul dacă s-ar adăuga un cache secundar cu un timp de acces de ns atât pentru lovituri, cât și pentru greșeli, suficient de mare pentru a reduce rata de pierdere a memoriei RAM la , %? Răspuns Costul unei rateuri la accesarea RAM este ns ULIU Mese* premium Fiiichmya memorie ȘI DESPRE Dispozitiv media de disc Orez TLB acționează ca cache pentru tabelul de pagini pentru intrările care se mapează numai la pagini fizice TiB conține un subset de mapări de pagină virtuală-fizică în tabelul de pagini Mapările TLB sunt afișate într-o culoare diferită Deoarece TLB este un cache, trebuie să aibă un câmp de etichetă Dacă nu există nicio intrare în TLB corespunzătoare o pagina trebuie să accesați tabelul de pagini Tabelul de pagini va furniza fie un număr fizic de pagină (care poate fi folosit pentru a crea o sală de yeni TLB) sau arată că pagina este pe disc, caz în care va apărea o eroare de ieşire a paginii Deoarece tabelul de pagini conţine o intrare pentru fiecare pagină virtuală, nu are nevoie de un câmp de etichetă, cu alte cuvinte, spre deosebire de TLB tabelul de pagini nu este un cache După o pierdere în timpul unui apel către TI B, rezultatul lipsă al conversiei este preluat din tabelul de pagini, va trebui să selectăm intrarea din TLB care urmează să fie înlocuită Deoarece intrarea TLB conține atât biți de modificare, cât și biți de acces, acești biți trebuie copiați înapoi în tabelul de pagini atunci când intrarea este înlocuită Acești biți sunt singura parte a intrării TLB care poate fi modificată Folosirea scrierii înapoi, adică copierea acestor intrări înapoi la o pierdere, mai degrabă decât atunci când au fost scrise, este o soluție foarte eficientă, deoarece rata de ratare a unui acces TLB este de așteptat să fie va fi mic Pe unele sisteme sunt utilizate alte tehnologii, aproximativ similare cu utilizarea biților de acces și a modificărilor pentru a elimina necesitatea unei intrări TLB, cu excepția unei noi intrări la o ratare Un TLB poate avea următorii parametri tipici: ♦ Mărimea TLB: - intrări; dimensiune bloc: - intrări în tabel de pagini (de obicei - octeți fiecare); Memoria virtuală ♦ hit time , - ciclu de ceas; ♦ pierderea costurilor - de cicluri de ceas; ♦ Rata lipsă: , %- % Constructorii folosesc o mare varietate de tehnologii de asociativitate în TLB Unele sisteme folosesc TLB-uri mici, complet asociative deoarece un afișaj complet asociativ are o rată de ratare mai mică; mai mult, deoarece TI B este mic, costul unei mapări complet asociative nu este prea mare Alte sisteme folosesc TLB-uri mai mari, adesea cu asociativitate mică Cu o mapare complet asociativă, devine mai dificil să selectați o intrare de înlocuit, deoarece schema LRL hardware este prea costisitoare de implementat Mai mult, deoarece erorile TLB sunt mult mai frecvente decât erorile de pagină și, prin urmare, trebuie tratate prin mijloace mai ieftine, nu putem folosi supraîncărcarea unui algoritm software pentru gestionarea erorilor de pagină Ca rezultat, multe sisteme oferă suport pentru selecția arbitrară a unei intrări de înlocuire Schemele de înlocuire vor fi discutate mai detaliat în secțiunea Intrinsity FastMATH TLB Pentru a înțelege cum funcționează aceste concepte de design pe un procesor real, să aruncăm o privire mai atentă la procesorul Intrinsity FastMATH TLB Sistemul de memorie folosește pagini de K și un spațiu de adrese de de biți; astfel, numerele de pagină virtuale, așa cum se arată în partea de sus a fig au lungimea de de biți Adresele fizice au aceleași dimensiuni ca și adresele virtuale Buffer-ul TLB conține intrări, este complet asociativ și este partajat între accesările de instrucțiuni și date Fiecare intrare are o lățime de de biți și conține o etichetă de de biți (care pentru această intrare TLB este un număr de pagină virtuală), pagina fizică corespunzătoare număr (de asemenea, de biți), bit valid, bit de modificare și alți biți de înregistrare Pe fig prezintă TLB și unul dintre dispozitivele cache, iar fig Figura prezintă pașii pentru procesarea unei cereri de citire sau scriere Când apare un apel ratat, către TLB Hardware-ul MIPS stochează numărul paginii care a fost accesată într-un registru special și aruncă o excepție Această excepție activează sistemul de operare, care gestionează ratarea în mod programatic Pentru a determina adresa fizică a unei pagini lipsă, rutina TLB miss indexează tabelul de pagini folosind numărul paginii din spațiul de adrese virtuale și un registru de tabel de pagini care indică adresa de pornire a tabelului de pagini al procesului activ Folosind un set special de instrucțiuni de sistem care este capabil să actualizeze TLB sistemul de operare pune adresa fizică din tabelul de pagini în TLB O ratare când accesarea TLB durează aproximativ cicluri de ceas, cu Constatăm că codul și intrarea tabelului de pagini sunt în memoria cache a instrucțiunilor și, respectiv, în memoria cache a datelor (Codul MIPS TLB va fi afișat mai târziu în secțiunea „Gestionarea erorilor TLB și a erorilor de pagină” ) O eroare de pagină adevărată apare atunci când intrarea în tabelul de pagini nu conține o adresă fizică validă intrarea recomandată este aleasă arbitrar Există dificultăți suplimentare pentru cererile de scriere; și anume, în TLB, trebuie verificat bitul de acces la scriere Acest bit împiedică un program să scrie în paginile la care are acces numai pentru citire Dacă un program încearcă să scrie și bitul de acces la scriere este clar, se generează o excepție Bitul de acces la scriere face parte din mecanismul de securitate, care va fi discutat în scurt timp Combinarea memoriei virtuale, TLB-uri și dispozitive cache Memoria noastră virtuală și sistemul de cache funcționează împreună în aceeași ierarhie, astfel încât datele nu pot fi în cache până când nu sunt în RAM Sistemul de operare ajută la menținerea acestei ierarhii prin eliminarea conținutului oricărei pagini din cache pe disc când decide să mute acea pagină pe disc În același timp, sistemul de operare face modificări în tabelul de pagini și în TLB, astfel încât orice încercare de a accesa orice date din pagina amestecată are ca rezultat o eroare a paginii În cele mai favorabile circumstanțe, adresa virtuală este tradusă de TLB și trimisă în cache, unde sunt căutate datele corespunzătoare preluat și trimis la procesor În cel mai rău caz, o lovitură poate lipsi toate cele trei componente ale ierarhiei memoriei: nTI B, tabelul de pagini și memoria cache Această interacțiune este discutată mai detaliat în exercițiul următor Exercitiul Toate operațiunile în ierarhia memoriei Ierarhia memoriei (Figura ) include TI B și memoria cache, accesul la memorie poate întâmpina trei tipuri diferite de erori TLB miss, page fault și cache miss Luați în considerare toate combinațiile acestor trei evenimente, în care unul dintre ele sau mai multe evenimente au loc la o dată (există șapte opțiuni posibile în total) Pentru fiecare posibilitate, determinați dacă acest eveniment poate avea loc cu adevărat și în ce circumstanțe Răspuns Tabelul - prezintă toate combinațiile și ia în considerare posibilitățile de apariție a acestora în dispozitive reale Memoria virtuală Orez TLB și memoria cache efectuează procesul de tranziție de la o adresă virtuală la un articol într-un Intrinaity FeatMATH Această figură arată organizarea TLB și a memoriei cache de date la o dimensiune a paginii de KB Această diagramă arată procesul de citire, în timp ce Figura descrie procesarea scrierii Rețineți că, spre deosebire de Figura - , eticheta și blocurile RAM de date sunt separate Adresând o memorie RAM de date lungă, dar îngustă, selectăm cuvântul dorit dintr-un bloc folosind indexul cache combinat cu amestecarea blocurilor fără a folosi un multiplexor în timp ce memoria cache are o mapare directă TLB este complet asociativ Implementarea unui buffer TLB complet asociativ necesită ca fiecare etichetă TLB să fie comparată cu un număr de pagină virtuală, deoarece intrarea dorită poate fi oriunde în TiB (vezi clarificarea CAM în Secțiunea și în subsecțiunea - Locația blocurilor și memoria cache- ) Dacă este setat bitul valid al intrării corespunzătoare, achiziția este finalizată printr-o lovitură în TLB și se formează biții și biții din numărul fizic al paginii, împreună cu biții și biții din offset-ul paginii un index care este utilizat pentru a accesa memoria cache Capitolul Mare și rapid: Analiza ierarhiei memoriei Rms Procesarea unei citiri sau scriere în Intrinsity FastMATH TLB și în memoria cache Dacă TLB generează un hit, memoria cache poate fi accesată cu adresa fizică disponibilă Pentru o citire, memoria cache generează un hit sau o ratare și furnizează datele sau forțează o întârziere în timp ce datele sunt livrate din memorie Dacă are loc o scriere, o parte din intrarea în cache de pe hit este suprascrisă, iar datele sunt trimise în buffer-ul de scriere, cu condiția ca o trecere în curs de scriere blocul este încărcat numai la o ratare de citire sau o pierdere de scriere dacă blocul care este înlocuit este modificat aceasta înseamnă că datele trebuie să fie în memorie Relația dintre ratele TLB și ratele cache va fi discutată mai târziu în exercițiul următor și în exercițiile de la sfârșitul capitolului Memoria virtuală Tabelul S Combinații posibile de evenimente ■ TLB, ■ sistem de memorie virtuală și cache Dintre combinațiile prezentate, trei sunt absolut nerealiste, iar una este posibilă (lovită într-un TLB, lovită în memoria virtuală, dar ratată la accesarea memoriei cache), dar nu apare niciodată TLB Page Table Cache Este posibil? Dacă da, în ce circumstanțe? Chapadiamir Hit Miss Possible, deși tabelul de pagini nu este niciodată accesat dacă hit-ul a avut loc în timpul accesării TLB Accesul G|roma Hit Hit TLB ratat, dar intrarea în tabelul paginii a fost găsită, datele sunt găsite în cache după reîncercare Miss Hit Miss TLB acces ratat, dar intrarea tabelului de pagini a fost găsită, reîncercați nu găsește nicio dangshe în cache Miss Miss Miss După o ratare TLB, urmează o eroare de pagină și o pierdere a memoriei cache ar trebui să apară după o reîncercare Hit Miss Miss Acest lucru nu este posibil în TLB, nu poate exista un rezultat de conversie dacă pagina nu este în memorie Hit Miss Hit Acest lucru nu este posibil în TLB nu poate fi rezultatul unei conversii dacă pagina nu este în memorie Miss Miss Hit Acest lucru nu este posibil Datele nu pot fi în cache dacă pagina nu este în RAM Clarificare Tabelul - se bazează pe faptul că toate adresele de memorie sunt convertite în adrese fizice înainte de a accesa memoria cache Cu această organizare, memoria cache este indexată după adrese fizice și etichetele sunt create și pe baza adreselor fizice (atât memoria cache) index și eticheta au adrese fizice, nu virtuale) Într-un astfel de sistem, durata unui acces la memorie, presupunând o atingere într-un acces în cache, ar trebui să includă ca timp de acces TLB precum și timpul de acces la memoria cache, desigur, aceste accesări pot fi canalizate Alternativ, procesorul poate indexa memoria cache la adrese care sunt în întregime sau parțial virtuale Aceasta se numește cache adresabilă virtuală care utilizează etichete care sunt adrese virtuale, prin urmare memoria cache este indexată virtual și utilizează etichete virtuale Într-un astfel de cache, hardware-ul de traducere a adresei (TLB) nu este utilizat în timpul accesului normal în cache, deoarece accesul se face folosind adrese virtuale care nu trebuie să fie traduse în adrese fizice TLB este astfel eliminat din calea critică, Cache Adresabilă practic Cache Memorie Cache lam care este accesat printr-o adresă virtuală, nu printr-o adresă fizică Capitolul reducerea latenței cache-ului Dar dacă are loc o pierdere a memoriei cache, procesorul trebuie să traducă adresa într-o adresă fizică pentru a prelua blocul pentru cache din memoria principală Când memoria cache este accesată prin adresa virtuală și paginile sunt partajate între programe (care le pot accesa la adrese virtuale diferite), poate apărea aliasing Apare atunci când același obiect are două nume, în acest caz partea de jos a adresei virtuale pentru aceeași pagină Ambiguitatea creează o problemă deoarece un cuvânt de pe o astfel de pagină poate fi stocat în cache în două locații diferite, fiecare corespunzând unei adrese virtuale diferite că datele au fost modificate O memorie cache adresabilă complet virtuală fie introduce constrângeri de design cache și TLB pentru a reduce ambiguitatea, fie necesită sistemul de operare pentru ambele este posibil ca utilizatorul să facă ceva pentru ca ambiguitatea să nu apară Un compromis comun între aceste două modele este un cache care are indexare virtuală, uneori folosind doar porțiunea offset de pagină a adresei, care este de fapt o adresă fizică deoarece nu este tradusă, ci folosește etichete fizice Astfel de construcții cu indexare virtuală, dar natura fizică a subiectului încearcă să profite de avantajele de performanță ale unui cache indexat virtual cu avantajele unei arhitecturi cache mai simple, adresabile fizic De exemplu, acest cache nu are probleme de ambiguitate Pe fig Figura presupune o pagină de K, dar este de fapt K, permițând procesorului Intrinsity FastMATH să folosească acest truc Pentru o implementare cc, dimensiunea minimă a paginii, dimensiunea memoriei cache și gradul de asociativitate trebuie să fie coordonate precis Ambiguitate Situația în care același obiect este accesat la două adrese poate apărea în memoria virtuală atunci când există două adrese virtuale pentru aceeași pagină fizică Implementarea protecției la utilizarea memoriei virtuale Poate cea mai importantă caracteristică a memoriei virtuale este capacitatea de a partaja o singură memorie RAM între mai multe procese simultan, oferind protecție a memoriei în mediul acestor procese și al sistemului de operare Mecanismul de protecție trebuie să asigure, la partajarea memoriei RAM între mai multe procese, că un proces deviant nu poate scrie în spațiul de adrese al altui proces utilizator sau al unui alt sistem de operare fie intenţionat sau neintenţionat bng rezolvarea scrierilor în TLB poate Memorie cache adresabilă fizic Memoria cache poate fi adresată după adresa fizică Memoria virtuală protejați pagina de scris Fără acest nivel de protecție, virușii informatici ar putea deveni și mai răspândiți Interfață hardware și software Pentru a permite sistemului de operare să implementeze protecție într-un sistem de memorie virtuală, hardware-ul trebuie să ofere cel puțin trei dintre următoarele capabilități de bază Suport pentru cel puțin două moduri care indică când procesul de rulare este un proces de utilizator sau un proces de sistem de operare, numit în mod diferit proces de supervizor, proces de nucleu sau proces executiv Furnizați o parte din starea procesorului pe care procesul utilizatorului o poate citi, dar nu poate scrie Aceasta include bitul mod utilizator-supervizor, care specifică dacă procesorul este în modul utilizator sau în modul supervizor, indicatorul tabelului de pagini și TLB Pentru a scrie în aceste elemente, sistemul de operare folosește instrucțiuni speciale disponibile numai în modul supervizor Furnizați mecanisme prin care procesorul poate trece de la modul utilizator la modul supervizor și invers Tranziția în prima dintre aceste direcții se face de obicei prin eliminarea unui apel de sistem implementat ca instrucțiune specială (în setul de instrucțiuni MIPS este syscall), care transferă controlul într-un loc special din spațiul codului de supraveghere Ca și în cazul tuturor celorlalte excepții valoarea contorului de programe de la punctul de apel de sistem este stocată în contorul de programe de excepție (EPC), iar procesorul este pus în modul supervizor Pentru a reveni de la o excepție la modul utilizator, este utilizată instrucțiunea de revenire de la excepție (ERET), care comută procesorul în modul utilizator și sare la adresa stocată în EPC Prin utilizarea acestui mecanism și prin stocarea tabelelor de pagini în spațiul de adrese al sistemului de operare, sistemul de operare poate face modificări la tabelele de pagini, protejându-le în același timp de modificările din partea procesului utilizator, asigurându-se că procesul poate accesa doar memoria care îi este acordată De asemenea, trebuie să împiedicați un proces să citească date dintr-un alt proces De exemplu, nu este de dorit ca un program pentru studenți să poată citi notele care se află în memoria procesorului Odată ce începe partajarea memoriei, trebuie să oferiți procesului oportunitatea pentru a-și proteja datele ca Modul Supervizor Denumit și modul kernel Un mod care indică >oy că procesul care rulează este un proces al sistemului de operare Apel de sistem O instrucțiune specială care transferă controlul din modul utilizator într-o locație specifică din spațiul de cod al supervizorului, inițiind mecanismul și procesul de gestionare a excepțiilor Capitolul Mare și rapid: Analiza ierarhiei memoriei din citit, deci din scris prin alte procese; în caz contrar, partajarea RAM va deveni o sabie cu două tăișuri! Amintiți-vă că fiecare proces are propriul spațiu de adrese virtuale Astfel, dacă sistemul de operare acceptă organizarea tabelelor de pagini astfel încât paginile virtuale independente să fie mapate cu pagini fizice separate, un proces nu va putea accesa datele altor procese Desigur, acest lucru este necesar pentru a împiedica procesul utilizatorului să modifice afișarea tabelului de pagini Sistemul de operare poate garanta securitatea dacă nu permite procesului utilizatorului să-și schimbe propriile tabele de pagini, dar sistemul de operare trebuie să poată face modificări în tabelele de pagini Prin plasarea tabelelor de pagini în spațiul de adrese protejat al sistemului de operare, îndeplinim ambele cerințe Atunci când un proces dorește să partajeze informații într-un mod limitat, sistemul de operare trebuie să îl ajute, deoarece accesarea informațiilor unui alt proces necesită schimbarea tabelului de pagini al procesului care accesează acele informații Un bit de acces la scriere poate fi folosit pentru a restricționa partajarea doar în citire și, ca orice altceva din tabelul de pagini, acest bit poate fi schimbat doar de sistemul de operare Pentru a permite un alt proces, să zicem Rі pentru a citi o pagină deținută de procesul P , procesul P trebuie să solicite sistemului de operare să creeze o intrare de tabel de pagini pentru o pagină virtuală în spațiul de adrese al procesului PI care indică aceeași pagină fizică pe care procesul P dorește să o partajeze Sistemul de operare poate folosi bitul de protecție la scriere pentru a preveni scrierea datelor de către procesul PI dacă a fost o cerință din procesul P Orice biți care definesc permisiunile de pagină trebuie să fie incluși atât în tabelul de pagini, cât și în TLB, deoarece tabelul de pagini este accesat numai dacă accesul TLB nu este Clarificare Când sistemul de operare decide să ruleze procesul P în locul procesului PI (numit comutare de context sau comutare de proces), trebuie să dezactiveze accesul procesului P la tabelele de pagină ale procesului PI, deoarece acest lucru ar compromite securitatea Dacă TLB nu este utilizat, este suficient să schimbați majusculele tabelului de pagini pentru a indica tabelul de pagini al procesului P (mai degrabă decât tabelul de pagini al procesului PI) Când se utilizează TLB, intrările TLB aparținând procesului pi trebuie să fie șterse pentru a proteja datele procesului pi și pentru a forța TLB să încarce datele procesului P Dacă rata de comutare a procesului este prea mare, totul poate fi foarte ineficient De exemplu, procesul P poate încărca doar câteva intrări TLB înainte ca sistemul de operare să revină la procesul PI Din păcate, procesul PI va constata apoi că toate înregistrările sale TLB au fost șterse și va suporta costul ratelor de acces TLB reîncărcarea acelor înregistrări Această problemă apare deoarece procesele P și P folosesc Schimbarea contextului Schimbarea stării interne a procesorului, permițând diferitelor procese să utilizeze procesorul și inclusiv salvarea stării pentru a reveni la procesul în execuție curent Memoria virtuală „ diferite adrese virtuale și ar trebui să ștergem” TLB pentru a evita confuzia asociată cu aceste adrese De obicei, alternativa este extinderea spațiului de adrese virtuale prin adăugarea unui ID de proces sau a unui ID de activitate Procesorul Intrinsity FastMATH are un ID de spațiu de adresă de opt biți (ASID) în acest scop Acest câmp non-elite identifică procesul care rulează în prezent; este stocat într-un registru încărcat de sistemul de operare la comutarea proceselor ID-ul procesului este concatenat cu partea de etichetă a TLB, astfel încât „rotația” lovește TLB numai dacă atât numărul paginii, cât și ID-ul procesului se potrivesc Această combinație elimină necesitatea de a citi TІ B, cu excepția cazurilor foarte rare Probleme similare pot apărea cu memoria cache, deoarece în momentul comutării procesului, memoria cache va conține datele procesului care rulează Aceste probleme apar diferit pentru cache-urile adresabile fizic și adresabile virtual și au multe soluții diferite, cum ar fi ID-urile de proces utilizate pentru a se asigura că un proces primește propriile date Gestionarea erorilor TLB și a erorilor de pagină Deși conversia adreselor virtuale în adrese fizice folosind TLB, cu condiția să-l lovească, este destul de simplă, gestionarea erorilor TI B și a erorilor de pagină este mult mai dificilă O pierdere TLB apare atunci când TLB ratează intrarea corespunzătoare adresei virtuale O ratare TLB poate indica una dintre cele două posibilități: I Pagina este în memorie, iar intrarea TLB lipsă trebuie doar creată Pagina nu are memorie și controlul trebuie transmis sistemului de operare pentru a gestiona eroarea de ieșire a paginii De unde știi cu care dintre aceste două circumstanțe ai trebuit să te confrunți? Gestionarea erorilor TLB va căuta intrarea din tabelul de pagini pentru a o livra TLB, cu o ratare la accesarea TLB Dacă bitul valid este setat, putem extrage pur și simplu intrarea dorită O pierdere a unui acces TLB poate fi gestionată de software sau hardware, deoarece necesită doar o serie mică de operațiuni pentru a copia o intrare validă din tabelul de pagini din memorie în TLB MIPS gestionează în mod tradițional erorile la acces Capitolul la TLB în mod programatic Intrarea tabelului de pagini este preluată din memorie și apoi instrucțiunea care a cauzat ratarea TLB este executată din nou Executarea din nou va avea ca rezultat o accesare TLB Dacă intrarea în tabelul de pagini indică faptul că nu există nicio pagină în memorie, atunci o excepție de eroare de ieșire a paginii va fi aruncată de data aceasta Gestionarea unei erori TLB sau a unei erori de pagină necesită utilizarea unui mecanism de excepție pentru a termina procesul activ, a transfera controlul către sistemul de operare și apoi a relua execuția procesului întrerupt O eroare de pagină va fi detectată în unele dintre ciclurile de ceas utilizate pentru accesarea memoriei Pentru a reporni o instrucțiune după gestionarea unei erori de pagină, trebuie salvată valoarea contorului de program pentru instrucțiunea care a cauzat eroarea de pagină Ca și în Capitolul , această valoare este stocată în Exception Command Counter (EPC) În plus, o pierdere TLB sau o excepție cauzată de o eroare a paginii trebuie confirmată până la sfârșitul aceluiași ciclu de ceas în care a fost accesată memoria, astfel încât următorul ciclu de ceas să înceapă să gestioneze excepția și nu să continue execuția normală a instrucțiunilor nerecunoscută în acest ciclu de ceas, instrucțiunea de încărcare poate suprascrie valoarea registrului, ceea ce va duce la o eroare atunci când se încearcă repornirea instrucțiunii De exemplu, luați în considerare instrucțiunea I și $ ($ ): computerul trebuie să fie capabil să împiedice apariția etapei de scriere a conductei; în caz contrar, nu va putea reporni instrucțiunea în mod corespunzător, deoarece conținutul registrului I va fi distrus Aceleași dificultăți vor apărea și la executarea instrucțiunilor din magazin Când apare o eroare de pagină, trebuie împiedicată finalizarea efectivă a scrierii în memorie; acest lucru se face de obicei prin eliminarea semnalului de pe linia de control al scrierea în memorie Tabelul Registre de control MIPS Se presupune că se află în coprocesorul și prin urmare, instrucțiunea rnfcO este folosită pentru a le citi, iar instrucțiunea mtcO este folosită pentru a le scrie Register Coprocessor Register Number Descriere EPC Unde va reporni după excepție Saise Motivul excluderii BadVAddr Adresa instrucțiunii care a cauzat excepția index Locația de citire sau scriere în TLB RaiKlom Loc pseudo-aleatoriu în TLB Intrare la Adresă fizică a paginii și steaguri EntryHI Adresa virtuală a paginii Context Adresa tabelului paginii și numărul paginii Memoria virtuală Interfață hardware și software Între începerea unui handler de excepție în sistemul de operare și momentul în care sistemul de operare salvează toată starea procesului, sistemul de operare este deosebit de vulnerabil De exemplu, dacă apare o altă excepție în timp ce sistemul de operare procesează prima excepție, unitatea de control va suprascrie contorul de instrucțiuni de excepție, împiedicându-l să se întoarcă la instrucțiunea care a cauzat eroarea paginii! Este necesar să preveniți această urgență prin dezactivarea și activarea excepțiilor Când apare prima excepție, procesorul setează un pic pentru a dezactiva alte excepții; acest lucru se poate întâmpla în același timp în care procesorul setează bitul modului de supraveghere Sistemul de operare reține apoi suficiente informații de stare pentru a-i permite să se recupereze dacă apare o altă excepție, și anume valoarea contorului de comandă de excepție (EPC) și a registrelor Cauză EPC și Cause sunt două registre de control speciale care ajută la gestionarea excepțiilor, erorilor TLB și erorilor de pagină; alte registre sunt prezentate în tabel Apoi, sistemul de operare poate reactiva excepțiile Acești pași garantează că că excepțiile nu vor face ca procesorul să piardă o anumită stare și, prin urmare, să piardă capacitatea de a relua execuția unei instrucțiuni întrerupte unu Odată ce sistemul de operare cunoaște adresa virtuală care a cauzat eroarea paginii, trebuie să efectueze următorii trei pași Căutați intrarea tabelului de pagini folosind adresa virtuală și găsiți spațiul pe disc al paginii care a fost accesată Selectați pagina fizică care trebuie înlocuită; dacă pagina selectată a fost modificată, aceasta trebuie scrisă înapoi pe disc înainte cum va fi plasată o nouă pagină virtuală în pagina fizică zgu Începeți o citire pentru a livra pagina accesată de pe disc pe pagina fizică selectată Desigur, acest ultim pas va dura milioane de cicluri de ceas al procesorului (și acest timp se va dubla dacă pagina care este înlocuită a fost modificată); în consecință, sistemul de operare va alege de obicei un alt proces pentru a rula pe procesor până când accesul la disc este complet Deoarece sistemul de operare a salvat starea procesului, este liber să transferați controlul procesorului către alt proces Când citirea paginii de pe disc este completă, sistemul de operare poate restabili starea procesului apelat inițial Permisiuni de excepție De asemenea, pe întreruperea de activare Un semnal sau o acțiune care controlează răspunsul procesorului la o excepție Necesar pentru a preveni apariția unei excepții în intervalele de timp înainte ca procesorul să fie garantat pentru a salva starea necesară pentru a determina executarea instrucțiunii Capitolul eroare de pagină și executați instrucțiunea care se întoarce de la excepție Această instrucțiune va comuta procesorul din modul kernel în modul utilizator și, de asemenea, restabiliți valoarea contorului programului Procesul utilizatorului va reporni apoi instrucțiunea eșuată, va accesa pagina cu succes și va continua execuția acesteia Excepții asociat cu lipsa unei pagini la accesarea datelor este destul de dificil de implementat corect într-un procesor din cauza unei combinații a trei caracteristici: Ele apar în mijlocul unei instrucțiuni, spre deosebire de absența unei pagini atunci când este accesată o instrucțiune Instrucțiunea nu poate fi finalizată înainte ca excepția să fie tratată După gestionarea excepției, instrucțiunea trebuie repornită ca și cum nimic nu s-ar fi întâmplat Este relativ ușor să faceți repornirea instrucțiunilor pentru a gestiona o excepție și apoi să continuați executarea instrucțiunilor în arhitecturi precum MIPS Deoarece fiecare instrucțiune scrie un singur element de date, iar această scriere are loc la sfârșitul ciclului de instrucțiune, putem pur și simplu împiedica terminarea instrucțiunii (prin anularea scrierii) și reporniți instrucțiunea de la început Să aruncăm o privire mai atentă la MIPS Când are loc o pierdere de acces F-R, hardware-ul MIPS stochează numărul paginii care a fost accesată într-un registru special numit BadVMdr și generează Reporniți instrucțiunea O instrucțiune care poate relua execuția după ce o excepție a fost gestionată, fără ca această excepție să afecteze rezultatele execuției instrucțiunii Handler Numele subrutinei apelate pentru a gestiona excepția sau întrerupere excepție Excepția este ridicată de sistemul de operare, care gestionează excepția în mod programatic Controlul se trimite la adresa €, la acel loc unde este gestionarea miss atunci când accesați TLB Pentru a determina adresa fizică a paginii care a cauzat ratarea, rutina de gestionare a erorilor TLB indexează tabelul paginii folosind numărul paginii cu adrese virtuale și un registru al tabelului paginii care indică adresa tabelului paginii de început a procesului activ Pentru a accelera această indexare, hardware-ul MIPS plasează tot ce are nevoie într-un registru context special: cei biți superiori conțin adresa bazei tabelului de pagini, iar următorii biți conțin adresa virtuală a paginii negăsite intrarea este un singur cuvânt, deci ultimii doi biți sunt zerouri Astfel, primele zile ale instrucțiunilor copiază conținutul registrului Context în registrul temporar al nucleului fkl, iar apoi se încarcă intrarea tabelului de pagini din acea adresă în registrul U Amintiți-vă că registrele $k și II sunt rezervate de sistemul de operare pentru a fi utilizate fără salvare; motivul principal pentru această convenție este de a accelera gestionarea TLB miss Următorul este un cod MIPS pentru un handler TLB miss tipic Memoria virtuală TLBmss mfcO Jkk Context lw Jkl Q(tcl) mtcO UI Intrarea la tlbwn eret # copiați adresa elementului tabel de pagini (PTE) t pentru a înregistra temporar $k # care PTE să se înregistreze temporar $k! # îngrijire PTE într-un registru special EntryLo # îngrijirea EntryLo în intrarea lroievolnus TLB # retur de la expirare chemat de groialoi la # securitate și TLB După cum se arată mai sus, MIPS are un set special de instrucțiuni de sistem pentru actualizarea TLB Instrucțiunea tlbwr copiază valoarea din elementul de control pci EntryLc în intrarea TLB selectată de registrul de control Ranocm Acest ultim registru permite înlocuirea arbitrară, deci este în esență un numărător de sine stătător Gestionarea unei rateuri la accesarea TLB durează aproximativ o duzină de cicluri de ceas Rețineți că TLB miss handler nu verifică pentru a vedea dacă bitul valid este setat în intrarea tabelului de pagini Pentru că excepția aruncată cu un apel TLB ratat se întâmplă mult mai des decât o eroare de pagină, sistemul de operare încarcă TI B din tabelul de pagini fără a verifica intrarea și repornește instrucțiunea Dacă intrarea este nevalidă, se aruncă o altă excepție, iar sistemul de operare întâmpină o eroare de pagină Această metodă accelerează gestionarea erorilor TLB care apar frecvent, cu o performanță redusă pentru erorile rare ale paginii De îndată ce procesul care generează eroarea de eroare a paginii este întrerupt controlul va fi transferat la adresa |c diferită de adresa TLB miss handler Aceasta este adresa generală pentru excepții; Sistemul de gestionare a ratelor TLB are un punct de intrare special pentru a reduce supraîncărcarea ratelor Sistemul de operare folosește registrul Cauză pentru a determina cauza excepției Deoarece excepția se datorează unei erori de pagină, sistemul de operare știe că este necesară o procesare extinsă Astfel, spre deosebire de o ratare când ne referim la TІ V salvează toată starea procesului activ Această stare include toate registrele generale și în virgulă mobilă, adresa tabelului de pagini EPC și registrul Cauzei Deoarece gestionatorii de excepții de obicei nu folosesc registre în virgulă mobilă, trecerea controlului către un punct de intrare partajat nu salvează valorile acestora, lăsând sarcina doar unora dintre manipulatorii care trebuie În tabel arată un fragment din codul MIPS pentru handlerul de excepții Fii atent la asta că salvează și restabilește starea, acordă atenție activării și dezactivării excepțiilor, dar invocă codul C pentru a gestiona o anumită excepție Adresa virtuală care a cauzat eroarea depinde dacă a fost o eroare de acces la instrucțiuni sau o eroare de acces la date Adresa instrucțiunii care a generat eroarea se află în EPC Dacă a apărut o eroare la accesarea paginii de instrucțiuni EPC conține adresa virtuală a paginii care a provocat eroarea, altfel adresa virtuală care a provocat Capitolul eroarea trebuie calculată prin examinarea instrucțiunii (a cărei adresă este în EPC) pentru a determina registrul de bază și câmpul offset Tabelul Cod MIPS pentru a salva și a restabili starea atunci când apar excepții Salvați starea Preserve General Purpose Registers (GPR) a copy status register sw saJ XCT SR(Skl) * Salvare » Wall Ssr Timp de instalare peste Ssp Stl X sp • Sp - xCPSIZE Permiteți excepții imbricate andi SvO SaJ * X ♦ SvO * Ssr S MA» ♦ rezolvarea excepţiilor ■tcO SvO Ssr t Ssr - valoarea de expirare Apelarea unui handler de excepții scris în C setarea Sgp yaouѵe Sqo G₽INIT t setarea Sgp la un punct de zonă heap Apel cod C ■ove SaO Ssp i argl • pointer „un stack expiry jal xcpt Oeltver X call C-ioaa ala processing X exclusion Restaurarea statului Restaurarea majorității GPR, hi, io ■ove Sat Ssp * ove Ssp valoare lw Sra xCTRAtsat) # restaurarea sra din perete X și restaurarea StO Sa) lw SaO XC A (Stl> ♦ restaurarea SaO din perete Restabiliți registrul de stare lw SvO, XST $I($ I> ♦ încărcați vechiul Ssr din stiva li Svl MASK X set cască ala dezactivată ♦ excluderi ala SvO SvO Svl X SvO - Ssr & HASx dezactivați X excluderi ■tcO SvO SvO registrul de stare Întoarcere de la gestionarea excepțiilor Recuperarea Ssp și a altor GPR care au fost folosite ca registre temporare lw Ssp XCT SPfSat) X restaurați Ssp din stiva lw SvO XCT vO(Sat) X restaurați SvO din stiva lw Svl XCT~Vl(Sat) X restaurați Svl din perete lw Stl XCT*(K(Sat) » copiați vechiul sepc din stiva lw Sat „CI AT(Sat) X recuperare Sat de pe perete Restaurarea ESS și returnarea ■tcO Skl Sepc X restaurarea Sepc eret Sra X întoarcerea la instrucțiunile trvanei Memoria virtuală Clarificare Această versiune simplificată presupune că există o valoare validă în indicatorul de stivă (sp) pentru a evita o eroare de pagină la executarea acestui cod de gestionare a excepțiilor de nivel scăzut MIPS alocă o parte din spațiul său de adrese care nu poate avea erori de pagină, această parte se numește nemapată Sistemul de operare plasează codul punctului de intrare pentru gestionarea excepțiilor și stiva de tratare a excepțiilor în memoria nemapată Așadar, sistemul de operare pune codul de intrare pentru gestionarea excepțiilor și stivele de tratare a excepțiilor în memoria nemapată Clarificare Cod în tabel Figura prezintă secvența returnată de la o excepție disponibil în MIPS- Arhitectura MIPS-I mai veche folosește instrucțiunile rfe și jr în loc de instrucțiunea eret Clarificare Pentru procesoarele cu instrucțiuni mai complexe care pot atinge multe locuri din memorie și pot scrie multe elemente de date, este mult mai dificil să faceți repornirea instrucțiunilor Procesarea unei singure instrucțiuni poate genera mai multe erori de pagină în mijlocul unei instrucțiuni De exemplu, procesorul x are o instrucțiune de mutare bloc care afectează mii de cuvinte și mai mult În astfel de procesoare, instrucțiunile nu pot fi repornite de la bun început , așa cum sa făcut cu instrucțiunile MIPS În schimb, instrucțiunea ar trebui întreruptă și puțin mai târziu continuată în cursul execuției sale Reluarea execuției unei instrucțiuni de la mijloc necesită de obicei salvarea unei stări speciale, gestionarea excepției și restabilirea acelei stări speciale Executarea corectă a acestei sarcini necesită coordonarea între codul de gestionare a excepțiilor din sistemul de operare și hardware Scurte concluzii Memoria virtuală este numele unui nivel din ierarhia memoriei care controlează stocarea în cache între memoria principală și disc Memoria virtuală permite unui singur program să-și extindă spațiul de adrese dincolo de limitele memoriei principale Cel mai important, memoria virtuală acceptă partajarea RAM de către mai multe procese active simultan într-o manieră protectoare Gestionarea ierarhiei memoriei dintre RAM și disc nu este ușoară, deoarece costul unei erori de pagină este prea mare O serie de tehnologii sunt utilizate pentru a reduce rata de ratare: Faceți paginile suficient de mari pentru a profita din plin de localitatea spațială și pentru a reduce ratele de ratare Maparea adreselor virtuale la adresele fizice, implementată folosind tabelul de pagini, este făcută complet asociativă astfel încât pagina virtuală să poată fi plasată oriunde în RAM memorie nemapată O parte a spațiului de adrese care nu poate avea erori de pagină Capitolul Sistemul de operare folosește tehnologii precum LRU și biți de inversare pentru a selecta pagina de înlocuit Scrierea pe disc este costisitoare, astfel încât memoria virtuală utilizează o schemă de scriere înapoi și, de asemenea, ține evidența dacă o pagină s-a schimbat (folosind bitul de modificare) pentru a evita scrierea paginilor nemodificate înapoi pe disc Mecanismul de memorie virtuală oferă maparea adresei de la adresa virtuală utilizată de program la spațiul de adrese fizice folosit pentru a accesa memorie Traducerea adreselor vă permite să partajați memoria RAM într-o manieră protejată și oferă o serie de beneficii suplimentare, cum ar fi alocarea mai ușoară a memoriei Garantarea proceselor pentru a fi securizate unele de altele necesită ca numai sistemul de operare să poată schimba traducerea adresei, ceea ce se realizează prin prevenirea programelor utilizatorului din modificarea tabelelor de pagini Partajarea gestionată a paginilor între mai multe procese poate fi implementată folosind sistemul de operare și biții de acces din tabelul de pagini indicând dacă programul utilizatorului are acces de citire sau scriere la pagină Dacă procesorul trebuie să acceseze tabelul de pagini din memorie pentru a traduce fiecare adresă, memoria virtuală ar fi prea costisitoare și stocarea în cache ar fi inutilă În schimb, un buffer TI servește drept memorie cache pentru conversiile tabelelor de pagini În acest caz, adresele sunt traduse de la virtual la fizic folosind transformările disponibile în TLB Toate dispozitivele cache, memoria virtuală și TLB-urile se bazează pe un set comun de principii și comportamente Acest mediu general va fi discutat în secțiunea următoare Înțelegerea performanței programului Deși memoria virtuală a fost inventată pentru a permite unei cantități mici de memorie să funcționeze sub pretextul unei cantități mari, diferența de performanță dintre disc și memorie înseamnă că, dacă un program accesează aleatoriu mai multă memorie virtuală decât memoria fizică, acesta va rula foarte lent Un astfel de program va fi implicat în mod constant în transferuri sau schimburi pagini dintre memorie și disc, adică va intra în așa-numitul mod de alunecare Apariția alunecării se transformă într-un accident, dar se întâmplă destul de rar Dacă programul dvs începe să se bâlbâie, cea mai simplă soluție este să îl rulați pe un computer cu mai multă memorie sau să cumpărați mai multe blocuri de memorie pentru computer O soluție mai complexă este să revizuiți algoritmul și structura datelor pentru oportunități de a schimba localitatea și de a reduce numărul de pagini utilizate simultan de programul dvs din acest motiv Acest set de cele mai multe pagini solicitate este denumit informal seturi de lucru Mediu comun pentru ierarhiile de memorie O problemă mai frecventă de performanță este ratarea „Apel la TІ V Întrucât TLB poate gestiona numai - de înregistrări de pagină la un moment dat, un program poate experimenta cu ușurință o rată de ratare mare atunci când accesează TLB, deoarece procesul V poate accesa direct mai puțin de un sfert de megaoctet: De exemplu, erorile de acces TLB sunt adesea o problemă pentru sarcinile Radix Sort Încercarea de a reduce gravitatea acestei probleme majoritatea arhitecturilor de computere de astăzi acceptă dimensiuni de pagină înainte De exemplu, pe lângă paginile standard K, hardware-ul MIPS acceptă pagini de K, K, K, MB, MB, MB, MB și MB Prin urmare, dacă pro-oamma utilizează pagini de dimensiuni mai mari, se poate adresa direct • mai mult spațiu de memorie fără pierderi TLB Dificultățile întâmpinate în practică obligă sistemul de operare să permită programelor să selecteze aceste dimensiuni de pagină mai mari Și aici, o soluție mai dificilă pentru a reduce ratele TLB ar fi revizuirea algoritmului și a structurii datelor pentru a reduce preluarea paginii de lucru; Având în vedere importanța impactului accesului la memorie asupra performanței și rata ratei TI B, unele programe cu seturi de lucru mari au fost reproiectate pentru a atinge acest obiectiv Autotestare Potriviți elementul ierarhiei, afișat în stânga, cu fraza cea mai potrivită pentru acesta, afișată în dreapta: L Cache a Memoria cache pentru memoria cache cache L b Cache pe disc RAM c Cache pentru RAM Memoria cache TI V pentru elementele tabelului de pagini Mediu comun pentru ierarhiile de memorie În momentul de față știm că diferite tipuri de elemente ale ierarhiei memoriei au multe în comun Deși multe dintre aspectele elementelor ierarhiei memoriei diferă cantitativ, există multe asemănări calitative în strategia și proprietățile care determină funcționarea acestora În tabel arată cum unele caracteristici cantitative ale elementelor ierarhiei memoriei pot diferi unele de altele Restul acestei secțiuni va discuta alternativele comune valabile pentru elementele ierarhiei memoriei și modul în care acestea determină comportamentul acestor elemente Comportamentul lor va fi explorat printr-o serie de patru întrebări care apar între oricare două niveluri ale ierarhiei memoriei, deși terminologia va fi folosită în mod predominant pentru a ne simplifica sarcina aplicabil memoriei cache Capitolul Mare și rapid: Analiza ierarhiei memoriei Tabelul Principalii parametri cantitativi de proiectare care caracterizează principalele elemente ale ierarhiei memoriei care sunt disponibile într-un computer Acestea sunt valori tipice pentru nivelurile prezentate începând cu Deși gama de valori este destul de largă, acest lucru se datorează parțial din cauza faptului că multe dintre valorile care s-au schimbat în timp sunt legate între ele, de exemplu, deoarece dimensiunea cache-ului a fost mărită pentru a depăși costul ridicat al dor a crescut și dimensiunea blocurilor Proprietate Valori tipice pentru dispozitivele cache L Valori tipice pentru dispozitivele cache L Valori tipice Nume pentru memoria paginată Valori tipice pentru TLB Dimensiunea totală a blocului - - - Dimensiunea totală în kiloocteți -M , - Dimensiunea puricilor în octeți -M - - Costul pierderii ciclului de ceas - yoooooo - Rata de rateuri (total pentru ) %- % , %- % , %- , % , %-?% Întrebarea : Unde poate fi amplasat blocul? Am văzut deja că o serie de scheme pot fi folosite pentru a plasa un bloc la nivelul superior al ierarhiei, de la mapare directă la asociativitate multiplă și completă Numele schemei Număr de canale Blocuri pe canal Mapare imediată Egal cu numărul de blocuri cache ■ Asociativitate multiplă Egal cu numărul de blocuri cache împărțit la gradul de asociativitate Egal cu gradul de asociativitate (de obicei - ) Asociativitate completă Egal cu numărul de blocuri din cache Avantajul creşterii gradului de asociativitate este că ca aceasta reduce de obicei rata de ratare Reducerea ratei de ratare se obtine prin reducerea ratei de ratare la concurenta pentru acelasi loc Vom analiza această problemă mai detaliat în curând Mai întâi, să vedem cât de semnificativ va fi avantajul rezultat eu ia fig Mediu comun pentru ierarhiile de memorie ■■Mis-urile sunt afișate pentru blocurile de memorie cache de mai multe dimensiuni pe măsură ce gradul de asociativitate se modifică de la maparea directă a celei de-a -a opta asociativități Cea mai mare creștere a fost obținută prin trecerea de la un afișaj mediocru la asociativitate cu două canale, ceea ce a dus la o ■ lichefiere a ratei de ratare între % și % Pe măsură ce dimensiunea memoriei UC crește, îmbunătățirea relativă de la creșterea gradului de asociativitate este neglijabilă Deoarece rata totală de pierderi într-o memorie nr mai mare va fi mai mică, oportunitățile de îmbunătățire a scăderii ratei ratei și îmbunătățirea absolută în rata ratelor de la creșterea gradului de asociativitate, se îngustează semnificativ Un potențial dezavantaj al creșterii gradului de asociativitate, așa cum sa menționat anterior, este creșterea costului și creșterea timpului de acces Orez Ratele de pierdere a memoriei cache a datelor pentru fiecare dintre cele opt dimensiuni ale memoriei cache pe măsură ce crește gradul de asociativitate Deși există un beneficiu semnificativ de la trecerea de la un singur canal (mapat direct) la un cache asociativ de-canal, beneficiile creșterii în continuare a gradului de cache asociativă sunt mai puțin semnificative (de exemplu, o îmbunătățire de % % atunci când trecerea de la un de-canal la un cache asociativ cu patru canale, comparativ cu o îmbunătățire de %- % atunci când treceți de la unul la două canale) Există încă mai puține îmbunătățiri când treceți de la asociativitatea cu patru canale la opt canale, care, la rândul său , realizează o rată de pierderi aproape comparabilă cu asociativitatea completă Blocurile de cache mai mici obțin un beneficiu absolut mult mai mare de la asociativitatea crescută, deoarece rata de ratare de bază pentru blocurile de cache mici este mai mare Modul în care sunt colectate aceste date este explicat în Tabelul - Întrebarea : Cum se determină locația blocului? Modul în care este detectat un bloc depinde de aspectul blocului, deoarece aceasta dictează numărul de locuri posibile pentru locația sa Aceste scheme pot fi rezumate în următorul tabel: Capitolul Asociativitatea Metodă de detectare Valoarea necesară a comparației Afișare directă Indexare Indexarea multiplă a mulțimilor, căutarea între elementele unei mulțimi Egal cu gradul de asociativitate Complet Vizualizați toate elementele cache Egal cu dimensiunea cache Tabelul de căutare separat Alegerea între maparea directă, asociativitatea multiplă și asociativitatea completă în orice ierarhie de memorie va depinde de costul de supraveghere față de costul de implementare a asociativității, atât în timp, cât și în nevoia de hardware suplimentar Având un cache L pe cip permite un grad mai mare de asociativitate, deoarece timpii de accesare sunt mai puțin critici și designerii nu trebuie să depindă de modulele SRAM standard ca blocuri de construcție Dispozitivele cache complet asociative sunt prea scumpe, cu excepția dispozitivelor cache mici unde costul comparatorilor nu este prea mare și unde reducerea absolută a ratei de ratare este cea mai mare În sistemele de memorie virtuală, o pagină de mapare separată, tabelul de pagini, este menținută pentru indexarea memoriei Pe lângă stocarea necesară tabelului, utilizarea unui tabel de index necesită accesări suplimentare de memorie Opțiunea asociativității complete pentru plasarea c-cans și prezența unui tabel suplimentar este motivată de următoarele fapte: Asociativitatea deplină are avantaje deoarece ratele sunt prea scumpe Asociativitatea completă permite software-ului să utilizeze scheme de înlocuire destul de complexe concepute pentru a reduce rata de ratare Afișajul complet poate fi indexat cu ușurință fără utilizarea hardware-ului suplimentar și nu este necesară căutarea Acesta este motivul pentru care sistemele de memorie virtuală folosesc aproape întotdeauna aspectul complet asociativ Dispozitivul multiasociativ este adesea folosit pentru dispozitivele cache și TLB-uri unde accesul combină indexarea și căutarea pe seturi de date mici Dispozitivele de cache mapate direct sunt utilizate doar într-un număr mic de sisteme datorită avantajelor lor în ceea ce privește timpul de acces și simplitatea Avantajul în timpul de acces provine din faptul că căutarea blocului dorit nu depinde de comparație Alegerea acestui design depinde de multe detalii de implementare, cum ar fi dacă dispozitivul cache se află pe matrița microprocesorului în sine, ce tehnologie este utilizată pentru a implementa memoria cache și cât de critic este timpul de acces în determinarea duratei ciclului de ceas al procesorului Mediu comun pentru ierarhiile de memorie Întrebarea : Ce bloc ar trebui înlocuit la o pierdere a memoriei cache? Dacă apare o pierdere într-un cache asociativ, trebuie să decideți ce bloc să se impută Într-un cache complet asociativ, toate blocurile sunt candidate pentru înlocuire Dacă memoria cache este multi-asociativă, trebuie să selectați un bloc din setul corespunzător Desigur, înlocuirea este ușor de făcut • cache de memorie direct-mapped, deoarece există un singur canlylat pentru acesta Pentru cache-urile multiasociative și complet asociative, nu există strategii generale de înlocuire * Blocurile candidate sunt alese aleatoriu, este posibil să se folosească ajutorul din hardware De exemplu, MIPS acceptă înlocuirea arbitrară a erorilor la accesarea TI B ♦ Least Required Element Replacement (LRU)' blocul care nu a fost revendicat o perioadă lungă de timp este înlocuit În practică, LRU este o strategie prea costisitoare de implementat pentru acele elemente ale ierarhiei al căror grad de asociativitate este sub un anumit nivel (de obicei de la doi la patru), deoarece urmărirea cererii de informații este destul de costisitoare Chiar și pentru asociativitate pură LRU este adesea aproximativă, cum ar fi urmărirea a care dintre cele două perechi de blocuri este cel mai puțin necesar (care necesită un bit), apoi urmărirea care dintre blocurile din fiecare pereche este cel mai puțin utilizat (care necesită un bit per pereche) La un grad mai mare de asociativitate, se folosește fie o strategie LRU aproximativă, fie o substituție arbitrară În memoria cache, algoritmul de înlocuire este realizat de hardware, ceea ce implică faptul că circuitul trebuie să fie ușor de implementat Înlocuirea aleatoare este destul de ușor de creat în hardware, iar pentru un cache asociativ cu două canale, înlocuirea aleatorie are o rată de pierderi de aproximativ , ori mai mare decât înlocuirea LRU Cu cât memoria cache devine mai mare, cu atât rata de pierderi pentru ambele strategii de înlocuire devine mai mică, iar diferența absolută devine neglijabilă De fapt, o înlocuire arbitrară poate fi uneori mai bună decât o înlocuire LRU simplă, aproximativă, care este mai ușor de implementat în hardware În memoria virtuală, o anumită formă de eșantionare LRL' este întotdeauna aproximativă, deoarece chiar și o scădere ușoară a ratei de ratare poate juca un rol important atunci când costul unei erori este prea mare Pentru a facilita ca sistemul de operare să țină evidența celor mai puțin solicitate pagini, sunt adesea furnizați biți de acces sau funcționalități echivalente Datorită costului ridicat al ratelor și rarității lor relative, o aproximare predominant software a acestor informații este destul de acceptabilă Capitolul Întrebarea : Ce se întâmplă la înregistrare? Caracteristica cheie a oricărui element al ierarhiei memoriei este modul în care gestionează scrierea Până acum, au fost luate în considerare două opțiuni principale: ♦ Informațiile de tip „write-through” sunt scrise atât în blocul cache, cât și în blocul situat la nivelul inferior în ierarhia memoriei (pentru memoria cache, în RAM) Această schemă este utilizată în memoria cache prezentată în Fig ♦ Scriere leneșă - informațiile sunt scrise numai în blocul cache Blocul modificat este scris la nivelul inferior al ierarhiei numai atunci când este înlocuit Sistemele de memorie virtuală folosesc întotdeauna scrieri lene din motivele discutate în Secțiunea Fiecare dintre strategiile de scriere, transmise și amânate, are propriile sale avantaje Principalele beneficii ale scrisului leneș sunt următoarele: ♦ Elefanții individuali pot fi scrisi de procesor la viteza cu care sunt accesați în cache, mai degrabă decât în RAM ♦ Mai multe intrări într-un bloc necesită o singură intrare la nivelul ierarhiei de mai jos ♦ Când are loc o rescriere a blocului, sistemul poate utiliza eficient transmisia de date în bandă largă, deoarece întregul bloc este scris simultan Principalele avantaje ale scrierii sunt următoarele: ♦ Missurile sunt mai ieftine deoarece nu necesită niciodată ca blocul să fie scris înapoi la nivelul următor din ierarhie ♦ Write-through este mai ușor de implementat decât leneș, deși un cache de write-through va trebui totuși să folosească un buffer de scriere pentru a fi practic În sistemele de memorie virtuală, este recomandabil să folosiți doar strategia de scriere leneșă din cauza latenței mari de scriere la cel mai de jos nivel al ierarhiei (pe disc) Rata la care procesorul generează scrieri depășește de obicei rata la care sistemul de memorie poate procesa aceste scrieri, chiar și cu blocuri de memorie mai mari din punct de vedere fizic și logic și moduri de transfer în rafală pentru RAM Din acest motiv, cache-urile de cel mai scăzut nivel de astăzi tind să folosească scrieri leneșe Vedere generala Diferitele versiuni de cache, TLB-uri și memoria virtuală pot arăta inițial foarte diferite unele de altele, dar se bazează pe aceleași două principii ale localității și pot fi rezolvate răspunzând la următoarele patru întrebări: Întrebarea : Unde poate fi plasat un bloc? Răspuns: Într-un loc (pentru afișare directă), în mai multe locuri (pentru asociativitate multiplă) sau în orice loc (pentru asociativitate deplină) Mediu comun pentru ierarhiile de memorie Întrebarea : Cum să găsiți blocul Răspuns; Există patru metode: indexare (ca într-un cache cu mapare directă), căutare restricționată (ca într-un cache cu asociativitate multiplă), căutare completă (ca într-un cache complet asociativ) și un tabel de căutare separat (ca într-o căutare) tabel) pagini) Întrebarea : Ce bloc ar trebui înlocuit în caz de ratare? Răspuns: De obicei, fie cel mai puțin solicitat, fie arbitrar Întrebarea : Cum sunt procesate înregistrările? Răspuns; La fiecare nivel al ierarhiei, poate fi utilizată fie intrare de la capăt la capăt, fie o intrare falsă Cele trei C: un model intuitiv pentru perceperea comportamentului ierarhiilor de memorie În această subsecțiune, vom lua în considerare un model care oferă o idee despre sursele ratelor și despre ierarhia memoriei și despre asta modul în care ratele vor fi afectate de schimbările din ierarhie Ideile vor fi explicate în termeni de memorie cache, deși aceste idei pot fi transferate la orice alt nivel al ierarhiei În acest model, toate ratele sunt clasificate în una dintre cele trei categorii (trei eCB): ♦ Greșeli forțate (Miss-es obligatorii) Aceste erori de cache sunt cauzate de primul acces blocat care nu a fost niciodată în cache Se mai numesc și rateuri de rulare inițiale ♦ Capacitate ratată Aceste erori de cache apar atunci când memoria cache nu poate conține toate blocurile necesare executării programului Scăderile de capacitate apar atunci când blocurile sunt înlocuite iar ulterior recuperat din nou din memorie ♦ Conflictul ratează Aceste erori de cache apar într-o memorie cache multiasociativă sau mapată directă atunci când mai multe blocuri concurează pentru spațiu în același set Erorile de coliziune se referă la astfel de erori de cache într-un cache mapat direct sau mapat memorie cache cu asociativitate multiplă, care dispar într-un asociativ Modal trei-C" Un mod de cache care ratează vreodată când îl accesează este clasificat într-una din cele trei categorii de greșeli de constrângere rateuri de capacitate (nnsses de capacitate) și rateuri de conflict ratare forțată (misa obligatorie) Se mai numește și rata de pornire Acces cache ratat cauzat de primul acces la un bloc care nu a fost niciodată în cache Capacitate misa O pierdere de cache cauzată de faptul că memoria cache, chiar și cu asociativitate deplină, nu poate conține toate blocurile necesare pentru a satisface cererea Miss conflict (conflict mlss) Denumită și greșeală de coliziune O pierdere de cache care apare într-o memorie cache multiasociativă sau mapată directă când mai multe blocuri concurează pentru același set și care dispare într-un cache complet asociativ de aceeași dimensiune Capitolul memorie cache de aceeași dimensiune Aceste erori de cache sunt denumite și erori de coliziune Pe fig arată împărțirea ratei de rateuri în trei surse Aceste surse de rateuri trebuie distruse direct prin modificarea unor aspecte ale designului cache-ului Deoarece greșelile de coliziune se datorează direct disputei pentru același bloc de cache, creșterea asociativității reduce numărul de greșeli de coliziune Dar asociativitatea poate încetini accesul, rezultând o performanță generală mai scăzută - $ $ $ Rheeler kmi-lamati (Kb) Orez S Rata de rateuri poate fi împărțită în trei surse de rateuri Această diagramă arată rata totală de pierderi și componentele sale pentru o gamă de dimensiuni de cache Aceste date sunt corecte pentru problemele de testare cu numere întregi și virgulă mobilă SPFC OO și sunt derivate din aceeași inexactitate ca și datele prezentate în Figura Componenta ratată forțată este de , % și nu poate fi văzut în această diagramă Următoarea componentă se referă la rata de pierdere a capacității și depinde de dimensiunea cache-ului precum și dimensiunea memoriei cache, afișată pentru o gamă de asociativitate de la un singur canal la opt canale În fiecare caz, partea semnată corespunde unei creșteri a ratei de ratare pe măsură ce asociativitatea se schimbă de la nivelul următor superior la nivelul semnat De exemplu, partea etichetată ■dual-channel* arată erorile suplimentare care apar atunci când memoria cache are asociativitate în două sensuri, mai degrabă decât asociativitate în patru căi Astfel, diferența de rata de ratare care rezultă din compararea unui cache mapat direct și a unui cache complet asociativ de aceeași dimensiune este suma părților etichetate cu canale, -dual-channel și -single-channel și cele patru- partea canalului este atât de mică încât este destul de dificil să o vedeți în această diagramă Pierderile de capacitate pot fi ușor reduse prin creșterea dimensiunii cache-ului; într-adevăr, dimensiunea cache-ului L a crescut constant de-a lungul anilor Desigur, atunci când cantitatea de cache crește, trebuie Mediu comun pentru ierarhiile de memorie Faceți ceva în legătură cu creșterea timpului de acces, care poate duce la o scădere a performanței generale Iată dimensiunea primului nivel cache ■r încet, dacă este deloc, poate fi considerată o creştere Deoarece rateurile forțate sunt cauzate de primul acces la bloc, o altă modalitate prin care sistemul de cache poate reduce numărul de rateuri forțate este creșterea dimensiunii blocului Acest lucru va reduce numărul de bucle necesare pentru un singur apel către fiecare bloc al programului, deoarece programul va consta dintr-un număr mai mic de blocuri pe măsură ce costul ratelor crește Împărțirea ratelor la trei „C” este un decalaj de calitate destul de util • În proiectele reale de memorie cache, multe soluții de design „sar una peste alta” iar o modificare a unei caracteristici a memoriei cache poate afecta adesea mai multe componente simultan, ceea ce determină rata ratelor În ciuda acestor deficiențe, acest model este util pentru înțelegerea performanței diferitelor modele de cache Vedere generala Dificultatea în construirea ierarhiilor de memorie constă în faptul că fiecare modificare care poate reduce rata de pierderi poate avea, de asemenea, un impact negativ asupra performanței generale, așa cum se arată în Tabelul Această combinație de efecte pozitive și negative este ceea ce face atractivă construcția ierarhiei memoriei Tabelul B Dificultăți în construirea unei ierarhii de memorie Schimbarea structurală a leagănelor Posibil impact negativ asupra performanței Măriți dimensiunea memoriei cache Reduceți pierderile de capacitate Măriți timpul de acces posibil Creșteți gradul asociativ r și micșorați rata ratelor prin reducerea numărului de rateuri de conflict Posibilă creștere a timpului de acces Creșterea dimensiunii blocului Scăderea ratei de pierdere pentru o gamă largă de dimensiuni de bloc datorită localizării spațiale Creșterea ratei de pierdere Blocurile foarte mari pot crește rata de ratare Autotestare Care dintre următoarele afirmații (dacă există) sunt în general adevărate? Nu există modalități de a reduce ratele forțate Nu există erori de coliziune într-un cache complet asociativ În reducerea numărului de rateuri, asociativitatea este mai importantă decât volumul Capitolul Mașini virtuale Legat de memoria virtuală și aproape la fel de veche este ideea de mașini virtuale, Virtual Machincs (VM) Primele astfel de mașini au fost dezvoltate la mijlocul anilor și de-a lungul timpului au devenit utilizate pe scară largă în mașinile universale mari În ciuda neglijării aproape totale a mașinilor virtuale în domeniul computerelor cu un singur utilizator în anii și Recent, au câștigat popularitate datorită următorilor factori: ♦ Creșterea importanței izolării și securității în sistemele moderne ♦ P|m>mahamam securitatea și fiabilitatea sistemelor de operare standard ♦ Partajarea aceluiași computer cu mulți utilizatori ♦ Creștere semnificativă în ultimele decenii a vitezei procesoarelor ceea ce a făcut ca costurile de utilizare a mașinilor virtuale să fie mai acceptabile Cea mai largă definiție a mașinilor virtuale include în esență toate metodele de emulare oferite de o interfață de programare standard, cum ar fi Java VM În această secțiune, atenția noastră va fi atrasă asupra mașinilor virtuale care oferă un mediu complet la nivel de sistem sub forma unei arhitecturi de set de instrucțiuni binare ( SA) Deși unele mașini virtuale rulează în mediul lor seturi ISA diferite decât seturile hardware originale, vom presupune că aceste seturi se potrivesc întotdeauna cu seturile hardware Aceste mașini virtuale sunt numite sisteme de mașini virtuale (de operare) Un exemplu este IBM VM/ VMware ESX Server și Xen Sistemul mașinii virtuale oferă iluzia că utilizatorii au acces la întregul computer, inclusiv la o copie a sistemului de operare Un singur computer rulează mai multe mașini virtuale și poate suporta mai multe sisteme de operare diferite Pe o platformă tipică, un singur sistem de operare „deține” toate resursele hardware, dar cu o mașină virtuală, resursele hardware sunt partajate pe mai multe sisteme de operare Software-ul care acceptă mașini virtuale se numește monitor de mașină virtuală (VMM) sau hipervizoare; VMM este inima tehnologiei mașinilor virtuale Platforma hardware de bază se numește gazdă, iar resursele sale sunt distribuite între mașinile virtuale invitate VMM definește modul în care resursele virtuale sunt mapate la resursele fizice: resursele fizice pot fi distribuite în timp, în bucăți sau chiar emulate de software VMM este mult mai mic decât un sistem de operare tradițional; partea izolată a VMM este probabil doar de aproximativ de linii de cod Deși interesul nostru pentru mașinile virtuale în acest caz se concentrează pe problema securității sporite, mașinile virtuale oferă alte două avantaje semnificative din punct de vedere comercial: S Mașini virtuale l ■management software Mașinile virtuale oferă o abstractizare care poate rula un pachet software complet, inclusiv sisteme de operare mai vechi precum DOS Un mediu tipic pentru un test ar putea fi mașinile virtuale care rulează sisteme vechi, multe mașini virtuale care rulează versiuni curente ale sistemului de operare și unele mașini virtuale pe care sunt testate următoarele versiuni ale sistemului de operare echipamente Un motiv pentru utilizarea mai multor gri este dorința de a rula fiecare aplicație pe un sistem de operare compatibil pe computere separate, deoarece astfel de radiouri pot îmbunătăți fiabilitatea operațională Mașinile virtuale permit acestor pachete software separate să ruleze independent unul de celălalt și să partajeze în continuare hardware în spatele mai multor servere Un alt exemplu este Whatdis- - VMM-urile acceptă migrarea unei mașini virtuale care rulează pe un alt computer, fie pentru echilibrarea sarcinii, fie pentru evacuarea hardware-ului defect În general, suprasarcina de virtualizare a procesorului depinde de volumul de lucru Programe la nivel de utilizator care depind doar de viteza procesorului nu au nicio suprasarcină de virtualizare: sistemul de operare se activează destul de rar, așa că totul rulează la viteze naturale O sarcină de lucru intensă I/O folosește, de obicei, pe deplin sistemul de operare, executând multe componente ale sistemului și instrucțiuni privilegiate, ceea ce poate duce la o suprasarcină mare de virtualizare Pe de altă parte, dacă volumul de lucru intens I/O depinde și de performanță (I/O a expirat), suprasarcina de virtualizare a procesorului poate fi complet ascunsă deoarece procesorul este adesea inactiv în așteptarea I/O Suprafața este determinată atât de numărul de instrucțiuni care trebuie simulate de VMM, cât și de timpul necesar fiecărei instrucțiuni pentru a se deplasa Prin urmare, atunci când mașina virtuală invitată rulează aceeași arhitectură de set de instrucțiuni (ISA) ca și mașina gazdă, așa cum s-a intenționat • în acest caz, scopul arhitecturii și VMM este de a rula aproape toate instrucțiunile direct pe hardware-ul sursă Cerințe pentru Virtual Machine Manager (VMM) Ce ar trebui să facă managerul mașinii virtuale? Acesta oferă o interfață de programare pentru software-ul oaspeților și ar trebui, de asemenea, să izoleze oaspeții unul de celălalt și să se protejeze de software-ul oaspeților (inclusiv sistemele de operare pentru oaspeți) Are următoarele cerințe: ♦ Software-ul invitat trebuie să se comporte în același mod pe mașina virtuală ca și cum ar fi rulat pe hardware-ul original, Capitolul cu excepția unei limite de resurse care afectează performanța sau persistentă partajată de mai multe mașini virtuale ♦ Software-ul invitat nu ar trebui să poată schimba direct alocarea resurselor reale ale sistemului Pentru a „virtualiza” procesorul, VMM-ul trebuie să gestioneze aproape totul – accesul la starea privilegiată, traducerea adreselor, I/O, excepțiile și întreruperile – chiar dacă mașina virtuală invitată și sistemul de operare care rulează în prezent le folosesc temporar De exemplu, în cazul unei întreruperi ale temporizatorului, VMM suspendă mașina virtuală invitată care rulează în prezent, salvează starea acesteia, gestionează întrerupere și determină ce mașină virtuală invitată să pornească următoarea și apoi își încarcă starea VM-urile invitate dependente de întreruperi ale temporizatorului sunt prevăzute cu un temporizator virtual și o întrerupere emulată de la VMM Pentru a fi responsabil pentru toate acestea, VMM trebuie să aibă un nivel mai ridicat de privilegii decât o mașină virtuală invitată, care rulează de obicei în modul utilizator; acest lucru asigură, de asemenea, că excepția oricărei instrucțiuni privilegiate va fi gestionată de VMM Cerințele de bază pentru un sistem de mașină virtuală sunt aproape identice cu cele enumerate mai sus care au fost prezentate memoriei virtuale cu o organizare a paginii: ♦ cel puțin două moduri de procesor, sistem și utilizator; ♦ un subset privilegiat de instrucțiuni, disponibil numai în modul sistem, care duce la o capcană atunci când este executat în modul utilizator; toate resursele sistemului ar trebui să fie controlate numai de aceste instrucțiuni Suport pentru mașini virtuale prin arhitectura setului de instrucțiuni (lipsa instrucțiunilor) Dacă utilizarea mașinilor virtuale a fost planificată în timpul proiectării arhitecturii setului de instrucțiuni, atunci reduceți numărul de instrucțiuni care trebuie executate de VMM și este relativ ușor să crești viteza emulării lor Arhitectura care permite unei mașini virtuale să ruleze direct pe hardware se numește virtualizată, iar arhitectura mașinii IBM poartă un nume atât de mândru Dar Din păcate, deoarece mașinile virtuale au fost luate în considerare doar recent pentru utilizare pe computere desktop și servere bazate pe computere personale, majoritatea seturilor de instrucțiuni au fost create fără virtualizare Printre inculpați x și majoritatea reprezentanților arhitecturii R SC, inclusiv ARM și MIPS Deoarece VMM trebuie să se asigure că oaspetele interacționează doar cu resurse virtuale, sistemul de operare normal pentru oaspeți începe ca un program care rulează în domeniul utilizatorului Mașini virtuale j»»r peste VMM Apoi, dacă sistemul de operare invitat încearcă să acceseze sau să modifice informațiile asociate cu |*căile hardware printr-o instrucțiune privilegiată - de exemplu, citiți sau scrieți indicatorul tabelului de pagini - are loc preluarea VMM Virtual Machine Manager poate face apoi modificările necesare la resursele reale corespunzătoare Prin urmare, dacă orice instrucțiune care încearcă să citească sau să scrie informații sensibile este blocată în timp ce este executată în modul Browser, VMM o poate intercepta și menține o versiune virtuală a informațiilor sensibile așa cum se așteaptă de gazda oaspete În absența unui astfel de sprijin, pot fi luate și alte măsuri Managerul mașinii virtuale trebuie să ia măsuri de precauție speciale pentru a detecta instrucțiunile problematice și pentru a se asigura că acestea sunt executate corect atunci când sunt executate de sistemul de operare invitat, crescând astfel complexitatea dispozitivului său și degradând performanța mașinii virtuale care rulează Arhitectură de securitate și set de instrucțiuni Securitatea este asigurată de eforturile combinate ale arhitecturii și sistemelor de operare Designerii de arhitectură Yu au trebuit să facă modificări la unele dintre aceste detalii ale arhitecturii setului de instrucțiuni existente atunci când memoria virtuală a devenit populară De exemplu, pentru a susține memoria virtuală pe IBM , dezvoltatorii au trebuit să schimbe arhitectura destul de reușită a setului de instrucțiuni IBM , care fusese anunțat cu șase ani mai devreme Ajustări similare au fost făcute în aceste zile pentru a găzdui mașinile virtuale De exemplu Instrucţiunea x SOY încarcă registrele flag din partea de sus a memoriei stivei Unul dintre steaguri este permisiunea de întreruperi - Interrupt Enable (ÎE) Dacă rulați instrucțiunea POPF în modul |> definit de utilizator, în loc de toate cârligele, toate indicatoarele, cu excepția IE, vor fi pur și simplu modificate În modul sistem, steag-ul IE va fi, de asemenea, schimbat Deoarece sistemul de operare invitat rulează în modul utilizator în interiorul mașinii virtuale, acest lucru cauzează o problemă, pisko tk) care se așteaptă să vadă flag-ul IE modificat Din punct de vedere istoric, hardware-ul IBM și VMM de uz general mare a trecut prin trei faze de îmbunătățire a performanței mașinilor virtuale: Reduceți costul virtualizării procesorului Reducerea sarcinii de întrerupere asociate cu virtualizarea Reduceți supraîncărcarea de întrerupere prin gestionarea întreruperilor pentru mașina virtuală dorită fără a recurge la VMM În , noile oferte de la AMD și Intel au vizat în primul rând reducerea costului virtualizării procesoarelor Va fi interesant de văzut câte generații de arhitectură și modificări VMM vor fi necesare B Capitolul Mari și rapid: Analiza ierarhiei memoriei să le abordeze pe toate trei și cât timp va dura ca mașinile virtuale din secolul să fie la fel de eficiente ca mașinile IBM de uz general și managerii de mașini virtuale din anii Clarificare În plus față de virtualizarea setului de instrucțiuni, există o altă problemă care este virtualizarea memoriei virtuale, deoarece fiecare sistem de operare din fiecare mașină virtuală își gestionează propriul set de tabele de pagini pentru a gestiona această lucrare VMM separă conceptele de memorie reală și fizică (care sunt adesea considerate sinonime) și face din memoria reală un nivel intermediar separat între memoria virtuală și cea fizică (memoria virtuală, memoria fizică și memoria mașinii sunt, de asemenea, folosite pentru a denumi aceste trei niveluri) memoria la memoria reală prin tabelele sale de pagini, iar tabelele de pagini VMM mapează memoria oaspeților reale la memoria fizică Arhitectura memoriei virtuale este definită fie prin tabelele de pagini, ca în IBM VM/ și HVB, fie prin structura TLB, ca în MIPS În loc să plătiți pentru un strat suplimentar de „indirecție” de fiecare dată când se accesează memoria VMM menține un tabel de pagini umbră care mapează direct spațiul de adrese virtuale pentru oaspeți cu spațiul de adrese fizice al hardware-ului, excluzând paginile fizice corespunzătoare care sunt înlocuite cu paginile reale din tabelele pentru oaspeți Prin urmare, VMM trebuie să intercepteze orice încercare a sistemului de operare invitat de a-și modifica tabelele de pagini sau de a accesa indicatorul tabelului de pagini Acest lucru se face de obicei prin protejarea la scriere a tabelelor de pagini invitate și interceptând orice acces la pointerul tabelului de pagini de către sistemul de operare invitat După cum am menționat mai devreme, ultima acțiune are loc, este destul de natural dacă accesul la indicatorul tabelului de pagini este o operație privilegiată Ultima parte a arhitecturii care trebuie virtualizată este I/O Aceasta este cea mai dificilă parte a virtualizării sistemului, din cauza numărului tot mai mare de dispozitive I/O conectate la computer și a varietății tot mai mari a acestor dispozitive Partajarea dispozitivelor reale între mai multe mașini virtuale este o altă provocare, iar această dificultate este exacerbată de necesitatea de a accepta mai multe drivere de dispozitiv, ceea ce este necesar mai ales dacă mai multe sisteme de operare invitate sunt acceptate pe același sistem de mașină virtuală Iluzia unei mașini virtuale poate fi menținută prin furnizarea fiecărei mașini virtuale cu versiuni generice ale fiecărui tip de driver de dispozitiv I/O și prin delegarea controlului real I/O către VMM Utilizarea unei mașini de stări pentru a gestiona un cache simplu Folosind o mașină de stat pentru gestionarea simplă a memoriei cache „Acum putem implementa managementul cache-ului, la fel cum am oferit sistemul de management pentru blocul operațional cu ciclu unic și pipeline în Capitolul Această secțiune începe cu definirea unui cache simplu și apoi continuă cu o stare finită mașină — mașini cu stări finite (FSM) În concluzie, se ia în considerare controlerul FSM pentru această memorie cache simplă Memorie cache simplă Vom dezvolta un controler pentru o memorie cache simplă Această memorie cache ■localizează următoarele caracteristici principale: ♦ afișare directă; ♦ scriere întârziată cu alocare de scriere; ♦ dimensiunea blocului cuvinte ( octeți sau biți): ♦ dimensiunea memoriei cache este de KB, prin urmare, conține de blocuri; ♦ Adresare pe de rânduri; ♦ Cache-ul folosește un bit valid și un bit de modificare pentru fiecare bloc Folosind materialul din Secțiunea , putem calcula zerourile adresei memoriei cache: ♦ indexul cache ocupă biți; ♦ bloc offset durează biți; ♦ Mărimea etichetei este - ( * ) sau biți Următoarele semnale vor fi utilizate între procesor și memoria cache: ♦ semnal de citire sau scriere pe un bit (Wntc); ♦ single-bit Semnal valid care indică faptul că operația este efectuată de memoria cache nominală; ♦ adresa pe de biți; ♦ date pe de biți de la procesor la cache; ♦ date pe de biți de la cache la procesor; ♦ semnal Ready pe un singur bit (Rcady), indicând finalizarea operației cu memoria cache Trebuie remarcat faptul că acesta este un cache de blocare, forțând procesorul să aștepte până procesează cererea Interfața dintre RAM și cache are aceleași câmpuri ca și interfața dintre procesor și cache cu excepția faptului că datele au o lățime de de biți Un format de memorie extins nu este neobișnuit pentru microprocesoarele de astăzi care funcționează cu cuvinte pe de biți sau de biți, în timp ce controlerul DRAM funcționează adesea cu de biți La Capitolul mașină de stat Funcție logică secvențială constând dintr-un set de semnale de intrare și ieșire, o funcție de tranziție care mapează starea curentă și valorile de intrare la o stare nouă și o funcție de ieșire care afișează starea curentă și pot fi valorile de intrare pentru a seta semnalele de ieșire Funcția de salt Funcție combinată care, pe baza datelor de intrare și a stării curente, determină următoarea stare a mașinii de stări menținerea blocului cache în linie cu lățimea DRAM-ului simplifică designul Astfel, se folosesc următoarele semnale: ♦ semnal de citire sau scriere pe un bit: ♦ semnal pe un singur bit Valabil, indicând faptul că ca operatia se desfasoara cu memorie; ♦ adresa pe de biți; ♦ Date pe de biți din cache în RAM; ♦ Date pe de biți din RAM în cache; ♦ un semnal Ready pe un singur bit care indică finalizarea operației de memorie Trebuie remarcat faptul că interfața de memorie durează un număr nefixat de cicluri Ar trebui să folosească un controler de memorie care va notifica memoria cache cu un semnal Ready atunci când memoria este citită sau scrisă Înainte de a descrie controlerul cache, trebuie să luăm în considerare mașinile de stare care ne permit să controlăm o operație care poate dura mai multe cicluri de ceas Mașini de stat Pentru blocul de control al unui bloc de operare cu un singur ciclu, folosim un set de tabele de adevăr care definesc expunerea semnalelor de control pe baza clasei instrucțiunii Pentru memoria cache se folosește un sistem de control mai complex, deoarece operația poate fi reprezentată printr-o serie de pași Sistemul de management al memoriei cache trebuie să determine atât semnalele setate pentru oricare dintre pași, cât și pentru următorul pas Cea mai comună metodă de control în mai multe etape se bazează pe utilizarea mașinilor cu stări finite, care sunt de obicei prezentate sub formă grafică O mașină de stări constă dintr-un set de stări și instrucțiuni despre cum se schimbă stările Direcțiile sunt definite de o funcție de stare următoare care mapează starea curentă și valorile de intrare la noua stare Când mașinile de stare sunt utilizate pentru control, fiecare stare definește, printre altele, un set de ieșiri care sunt emise atunci când mașina este în acea stare presupune că toate semnalele de ieșire care nu sunt setate în mod explicit sunt considerate nesetate Similar funcţionarea corespunzătoare a blocului de operare depinde de faptul că semnalul care nu a fost ъ Utilizarea unei mașini de stări pentru a gestiona o memorie cache simplă *- îmi pare rău explicit, dezactivat, cu excepția cazului în care MV-ul acelei operațiuni este indiferent Semnalele de control ale multiplexorului sunt oarecum diferite, deoarece aici este vorba de selecția uneia dintre intrări în funcție de faptul că acestea sunt egale cu sau Astfel, în mașina de stări, determinăm întotdeauna setarea tuturor • semnalelor de control multiplexer de ieșire Când mașina de stare este MWayzed folosind circuite logice, setarea semnalului de control ib poate fi valoarea implicită, nefiind porți logice „O mașină de stări poate fi implementată folosind o stare curentă temporară care conține reg și un bloc logic combinațional, determină- •WDUjeto și setează semnalele blocului de operare și starea următoare ■-» fig Figura arată cum ar putea arăta o astfel de implementare choms- -nasch-on "- zg khiyal "s salv-ny Tu „ODCHYA mai precis În plus față de un protocol de urmărire pentru a menține integritatea datelor de memorie ish în care starea blocului partajat este propagată, există un protocol bazat pe director care stochează starea blocului partajat al unui bloc de memorie fizică într-o singură locație, numită director Menținerea integrității datelor folosind un protocol bazat pe directoare are o suprasarcină de implementare puțin mai mare decât snooping și poate reduce traficul între dispozitivele cache și, astfel, poate fi extensibilă la mai multe procesoare Hardware real: ierarhii de memorie AMD Opteron X (Barcelona) și Intel Nehalem Această secțiune va analiza ierarhia memoriei în două microprocesoare moderne: AMD Opteron X (Barcelona) și Intel Nehalem în capitolul - fotografia chipului de proces]" AMD Opteron X Ambele matrițe au cache secundare și terțiare pe matrița procesorului principal Această integrare reduce timpul de acces la memoria cache de nivel inferior și, de asemenea, reduce numărul de pini de pe cip, deoarece nu este nevoie de o magistrală către un cache secundar extern Controlerele de memorie sunt amplasate pe ambele cristale, ceea ce reduce latența de accesare a memoriei RAM Capitolul Mare și rapid: Analiza ierarhiei memoriei Cipul de , mm pe , mm găzduiește de milioane de procesoare preistorice Conține patru procesoare, fiecare cu propriul cache de instrucțiuni de KB și același cache de date L , precum și cache L de KB Patru nuclee folosesc împreună MB cache L canale de memorie de de biți duce la DDR DRAM Fiecare nucleu are, de asemenea, un buffer TcB cu două niveluri Acum controlerul de memorie este pe cip, deci nu mai există un cip Northbridge separat, ca în kitul Intel CloveHown Ierarhiile de memorie Nehalem și Opteron În tabel Figura prezintă un rezumat al dimensiunilor adreselor și al TLB-urilor celor două procesoare Rețineți că AMD Opteron X (Barcelona) are patru TLB și că adresele virtuale și fizice nu se potrivesc cu dimensiunea cuvântului X folosește doar de biți potențiali G ai spațiului său virtual și din cei de biți potențiali ai spațiului său de adrese fizice Nehalem are trei TLB-uri, adresa virtuală este de de biți și adresa fizică este de de biți Dispozitivele lor de memorie kzsh sunt prezentate în Tabelul Fiecare procesor din X are propriile dispozitive cache L pentru instrucțiuni și date fiecare are KB și are propriul dispozitiv de cache L de KB Patru procesoare împart un singur cache L de MB Die Nehalem are o structură similară în care fiecare procesor are propriul cache L pentru instrucțiuni și date, fiecare KB și propriul cache L de KB dispozitiv, în timp ce cele patru procesoare partajează un singur cache de MB la nivel U Hardware real: ierarhii de memorie • ouă Hardware pentru traducerea adreselor și TLB în Intel Nehalem și AMD Opteron X Seturile de dimensiune a cuvintelor (dimensiunea maximă a adresei virtuale, dar procesorul trebuie să folosească toți biții Ambele procesoare oferă suport pentru pagini mari, care sunt utilizate, de exemplu, de sistemele de operare sau sistemele de mapare framebuffer Schemele de pagini mari evită un număr mare de elemente pentru a afișa un obiect mereu existent Nehalem acceptă două fire native per nucleu (vezi Secțiunea - din Capitolul ) Specificație Intel Nehalem AMD Opteron X (Barcelona) ♦Adresă virtuală biți biți ^adresă fizică de biți de biți Dimensiunea paginii KB MB KB, / MB Securitate TLB instrucțiune TLB și date TLB per nucleu instrucțiune LI TLB și date LI TLB per nucleu Ambele TLB-uri L au asociativitate LRU cu căi Ambele TLB-uri L sunt complet asociative înlocuire LRU L TLB are asociativitate pe patru canale, înlocuitor LRU L TLB pentru instrucțiuni și L TLB pentru date per nucleu Instrucțiunile LI TLB au de intrări pentru pagini mici, pentru fiecare tavă pentru pagini mari Ambele buffer-uri L TLB au algoritm de înlocuire ciclică de asociativitate meta-canal TLB de date LI are de intrări pentru pagini mici, pentru pagini mari Ambele TLB L au de intrări TLB L are intrări Ambele TLB L au intrări Erorile TLB gestionate de hardware Erorile TLB gestionate de hardware În tabel prezintă indicatorii IPC ratele ratate la o mie de instrucțiuni pentru dispozitivele cache L și L și accesele DRAM la o mie de instrucțiuni pentru Opteron X rulează benchmark-uri SPECint Observați corelația ridicată dintre CPI și ratele de pierdere a memoriei cache Coeficientul de corelație al setului de yet іATE;іе СПІ și al setului de coeficienți miss la accesarea memoriei cache L la de instrucțiuni este , Deși nu avem o rata de ratare reală la accesarea cache-ului L putem deduce eficiența cache-ului L prin reducerea acceselor DRAM în comparație cu rata de pierdere a acceselor cache-ului L Deși unele programe beneficiază semnificativ de utilizarea unui cache L de MB - h avc hmmer și bzip - majoritatea programelor nu au un astfel de câștig Capitolul Mare și rapid: Analiza ierarhiei memoriei Tabelul Dispozitiv cache L , L , L în Intel Nehalem și AMD Opteron X (Barcelona) Specificație Intel Nehalem AMD Opteron X (Barcelona) Organizare cache L Dispozitive separate pentru instrucțiuni și cache de date Dispozitive separate pentru instrucțiuni și cache de date Mărimea memoriei cache L KB pentru instrucțiuni și date per nucleu KB pentru instrucțiuni și date per nucleu Asociativitatea cache L canale (pentru instrucțiuni), canale (pentru date) asociativitate canale asociativitate Algoritm de înlocuire în L Înlocuire aproximativă de LRU Înlocuire de LRU Dimensiunea blocului a L bytes bytes L Strategie de scriere Scriere leneșă, Scriere de pachete Scriere leneșă, Scriere de pachete Timp pentru atingerea L (exploatare a costurilor) Nu există informații disponibile cicluri de ceas Organizare cache de nivel Consolidat (instrucțiuni și date) per nucleu Consolidat (instrucțiuni și date) per nucleu Dimensiune cache - namat și nivel L KB ( , MB) KB ( , MB) Asociativitatea cache de nivel și Asociativitatea canalului Alma Algoritm de înlocuire în L Înlocuire aproximativă a LRU Înlocuire aproximativă a LRU Dimensiunea blocului a bytes bytes L Strategie de scriere Scriere leneșă, Scriere de pachete Scriere leneșă, Scriere de pachete Timpul pentru a lovi I Nu există date disponibile cicluri de ceas Organizare cache L Combinat (instrucțiuni și date) Combinat (instrucțiuni și date) Dimensiunea memoriei cache L KB (în MB) total KB ( MB) total Asociativitatea cache de nivel Asociativitate pe canale Asociativitate pe de canale Algoritm de înlocuire a L Nu există date disponibile Înlocuiți blocul care este compatibil cu cel mai mic număr* de nuclee Dimensiunea blocului în L bytes bytes L Scriere Strategia Scriere leneșă, Scriere în memorie Scriere leneșă, Scriere pachet d j Timpul pentru a atinge L Nu există date disponibile (?) cicluri de ceas Hardware real: ierarhii de memorie hgilitsa Scoruri CPI, rate de ratare și rate de acces DRAM pentru ierarhia memoriei unui procesor Opteron X (Barcelona) care rulează benchmark-uri SPECint Din păcate, contoarele de pierderi ale cache-ului L de pe acest die nu funcționează, așa că avem doar numărul de accesări DRAM pentru a evalua performanța cache-ului L Rețineți că acest tabel se referă la aceleași sisteme și benchmark-uri , ca și Tabelul din Capitolul CPI Numărul de pierderi în memoria cache de date L la de instrucțiuni Numărul de pierderi în memoria cache de date L la de instrucțiuni Numărul de accesări ORAM la de instrucțiuni Nume , , , , bv , , , , !e- , , , , , , , , t R° , , , , , , , , , , , ■XJUH'ilum , , , , K avc , , , , lomnetpp , , , asta g , , , , Pxaiancbmk , , , , Mediană , , , , Tehnologii pentru reducerea costurilor ratelor Atât Nehalem, cât și Opteron X au optimizări suplimentare pentru a le ajuta să reducă costurile de pierdere Primul așa cum este descris în clarificarea din secțiunea „Proiectarea unui sistem de memorie cu suport pentru cache”, este că la o ratare, cuvântul solicitat este returnat primul Ambele sisteme permit procesorului să continue să execute instrucțiuni care accesează hash-ul de date în timp ce o pierdere este procesată Această tehnologie, numită cache non-blocking, este adesea folosită de designeri care încearcă să ascundă latența ratelor de cache folosind procesoare care nu respectă ordinea de execuție a instrucțiunilor Ei implementează două tipuri de non-blocare Lovitură în procesul de procesare a unei rateuri Neblo"ruk> memorie cache bună memorie cache permițând procesorului să acceseze memoria cache în procesul de gestionare a unei erori anterioare Capitolul Mare și rapid: Analiza ierarhiei memoriei rezolvă accesările suplimentare din cache, iar o greșeală în procesul de gestionare a erorilor vă permite să aveți mai multe erori nerezolvate Dacă o proporție semnificativă de rateuri se suprapun, va fi necesar un sistem de memorie cu lățime de bandă mare care poate procesa mai multe erori în paralel Pe sistemele desktop, memoria poate profita de această capacitate doar într-o măsură limitată, dar sistemele de server mari și multiprocesoarele au adesea sisteme de memorie capabile să gestioneze mai mult de o eroare netratată în paralel Ambele microprocesoare prelevează instrucțiunile și au încorporat un mecanism hardware de preluare preliminară pentru accesul la date Ei se uită la modelul de ratare a accesului la date și folosesc aceste informații pentru a încerca să prezică următoarea adresă pentru a începe recuperarea datelor înainte cum apare o greșeală Astfel de tehnici funcționează mai ales bine atunci când se accesează elemente de matrice într-o buclă O provocare semnificativă cu care se confruntă dezvoltatorii de cache este suportul pentru procesoare precum Nehalem și Opteron X care poate executa mai multe instrucțiuni accesând memoria într-un singur ciclu de ceas Interogările multiple pot fi acceptate în memoria cache de prim nivel folosind două tehnologii diferite Un cache poate avea mai multe porturi, permițând mai mult de un acces la același bloc cache în același timp Dar dispozitivele cache cu mai multe porturi sunt adesea prea costisitoare deoarece celulele RAM din memoria multiport trebuie să fie mult mai mari decât celulele individuale yurton O schemă alternativă este de a partiționa memoria cache în bănci și de a permite accese multiple, independente, dacă acestea sunt în bănci diferite Această tehnologie este similară cu RAM-ul intercalat (vezi Fig ) ) Cache-ul de date L al Opteron X acceptă două citiri de de biți pe ciclu de ceas și are opt bănci Nehalem și majoritatea celorlalți procesoare urmează o politică de activare în ierarhia memoriei lor Aceasta înseamnă că o copie a tuturor datelor din memoria cache de nivel superior poate fi găsită și în dispozitivele de cache de nivel inferior În schimb, procesoarele AMD din dispozitivele cache L și L urmează o politică de excludere, ceea ce înseamnă că un bloc de cache poate fi găsit doar în dispozitivele cache L sau L , nu ambele Prin urmare, la o pierdere în timpul unui acces la cache L , când un bloc este preluat de la L la L , blocul de înlocuire este trimis înapoi în memoria cache L Ierarhiile complexe de memorie ale acestor microprocesoare și proporția mare de matrițe dedicate dispozitivelor de memorie cache și TLB-urilor indică faptul că eforturile de dezvoltare semnificative au fost direcționate spre reducerea decalajului Yu Iluzii și neînțelegeri „Ziu durata ciclului de ceas al procesoarelor și timpul de așteptare la accesarea memoriei •«©opinie Cache-ul partajat L al Opteron X urmează întotdeauna o politică de excludere procesoare strânse în comun Prin urmare, protocolul cache L recunoaște dacă un bloc de cache este partajat sau utilizat numai de procesorul dumneavoastră clarificare Procesorul Opteron X nu numai că nu respectă politica normală de plug-in dar pe lângă aceasta, are și relații non-standard între nivelurile „arhiei memoriei În loc să furnizeze cache-ul L din memorie, care la rândul său furnizează cache-ul L , cache-ul L stochează doar datele care au fost excluse din memoria cache L Un astfel de frate, cache-ul L poate fi numit memoria cache „arsă” mnmy, deoarece conține doar acele blocuri care au fost mutate din eu („victime*”) În mod similar, memoria cache L este memoria cache de date sacrificială pentru L constând numai din blocuri mutate din - Dacă datele care au cauzat ratarea în L nu se găsesc în L , ci sunt găsite • în L , cache-ul L va furniza datele direct în cache-ul LI În mod ironic, o pierdere a unui acces L poate fi reparată apăsând ■ L sau apăsând pe L sau fără memorie Concepții greșite și neînțelegeri Fiind unul dintre cele mai naturale aspecte cantitative ale arhitecturii computerelor, ierarhia memoriei poate părea cea mai puțin vulnerabilă la concepții greșite și neînțelegeri Nu numai că există o mulțime de concepții greșite și neînțelegeri foarte frecvente, dar unele dintre ele duc și la consecințe negative semnificative Să începem cu o concepție greșită pe care elevii o au destul de des atunci când rezolvă exerciții și trec examene Neînțelegere Imitarea cache-ului trece cu vederea adresarea octetilor sau dimensiunea blocului cache Când simulați o memorie cache (cu sau fără computer), trebuie să vă asigurați că efectul adresei octeților și faptul că există mai multe cuvinte în bloc sunt luate în considerare atunci când determinați în ce bloc de cache este mapată o anumită adresă De exemplu, dacă asm memorie cache cu mapare directă de de rânduri cu o dimensiune a blocului de octeți adresa octet mapează blocul în cache deoarece adresa octet este adresa blocului și ( mod ) este Pe de altă parte, dacă adresa este o adresă de cuvânt, atunci este mapată la un bloc ( mod ) • Asigurați-vă că baza adresei este clar definită în problemă Capitolul În mod similar, trebuie să luăm în considerare dimensiunea blocului Să presupunem că avem un cache de de octeți și dimensiunea blocului este de de octeți În ce bloc se află adresa de octet ? Dacă împărțim adresa în câmpuri, răspunsul va fi vizibil; E I O Numărul blocului de memorie cII Blocați adresa Adresa octetului este adresa blocului Numărul de blocuri din cache Blocul numărul cade pe numărul blocului cache ( mod ) = I Mulți oameni cad în această capcană, inclusiv autori (la presupunerea inițială) și profesori care au uitat ce adrese înseamnă cuvinte, octeți sau numere de bloc Țineți cont de această concepție greșită atunci când rezolvați exerciții Neînţelegere Ignorarea comportamentului sistemului de memorie la scrierea programelor sau la generarea codului în compilator Este ușor să spunem astfel: „Programatorii pot ignora ierarhiile de memorie atunci când scriu cod” Să ilustrăm acest lucru cu un exemplu folosind înmulțirea matriceală pentru a finaliza comparația în sortarea prezentată în Fig Iată cum arată bucla interioară în versiunea de înmulțire a matricei din capitolul : for ( st - »i» ) pentru (j- JО- : pentru (k- ; k!- kk "l) - YINGLE ♦ y[ij[k] * :(k][j] Când se rulează cu date de intrare reprezentate prin precizie dublă de la la de matrice, timpul necesar procesorului pentru a executa bucla de mai sus pe un procesor M PS a avea un cache secundar de megaoctet va fi de aproximativ dublu când ordinea buclei este schimbată în k, j, i (adică devine bucla cea mai interioară)! Singura diferență este modul în care programul accesează memoria și caută să profite de ierarhia memoriei Erori și neînțelegeri „Rangul blocului poate afecta timpul de execuție, care schimbați pentru acest cod încă de patru ori! Iluzie Având mai puțină asociativitate într-un cache partajat decât numărul de nuclee sau fire care utilizează acel cache Dacă nu se iau măsuri suplimentare, un program care rulează în paralel pe procesoare sau fire de execuție * poate aloca cu ușurință structuri de date adreselor care vor fi mapate la același set de cache L partajate Dacă memoria cache are preferințe de cel puțin * canale, atunci acest conflict aleator va fi ascuns programului de hardware Dacă nu un programator poate întâlni o eroare de rulare clar mistică, care decurge de fapt dintr-un conflict de erori xL , atunci când migrează de la, de exemplu, un design cu nuclee la unul cu de nuclee, cu condiția ca ambele modele să utilizeze un cache L de asociativitate cu canale Iluzie Utilizarea timpului mediu de acces la memorie pentru a estima ierarhia memoriei pe un procesor care nu respectă ordinea de execuție a instrucțiunilor Dacă procesorul este blocat pentru timpul de procesare al unei erori de cache, atunci puteți calcula separat latența datorată accesului la memorie și timpul de execuție a programului procesorului și, prin urmare, puteți estima independent ierarhia memoriei folosind timpul mediu de acces la memorie (vezi exercițiul „Calculul timpului mediu de acces la memorie”) acces la memorie”) Dacă procesorul continuă să execute instrucțiuni chiar și în timp ce o ratare este procesată, atunci pot fi întâlnite noi erori de cache Singura evaluare precisă a ierarhiei memoriei este de a simula munca în această ierarhie a unui procesor care nu respectă ordinea de execuție a instrucțiunilor Iluzie Extinderea spațiului de adrese prin adăugarea de segmente în partea de sus a spațiului de adrese nesegmentat În anii , multe programe au crescut până la o astfel de dimensiune încât toate codurile și datele nu puteau fi adresate doar cu adrese de biți, numite spațiu de adrese liniar), sau prin adăugarea a biți de segment la o adresă existentă de biți Din punct de vedere al marketingului, adăugarea de segmente vizibile de program care au forțat programatorul și compilatorul să împartă programul în segmente ar putea rezolva problema de adresare Din păcate, de fiecare dată când programul dorea să abordeze ceva care avea mai mult de un segment, cum ar fi indici pentru matrice mari indicatori nelimitați sau parametri de legătură, a existat o problemă Pe lângă logo, adăugarea de segmente poate transforma orice adresă în două cuvinte - unul pentru numărul de segment și celălalt pentru decalajul segmentului - cauzarea de probleme cu utilizarea adreselor în registre Capitolul Iluzie O implementare a managerului de mașini virtuale pe o arhitectură de set de instrucțiuni care nu a fost concepută având în vedere virtualizarea Mulți dezvoltatori din anii și nu au avut grijă să garanteze privilegiile tuturor instrucțiunilor care citesc sau scriu informații legate de resursele hardware Această neglijență a dus la probleme pentru managerii de mașini virtuale bazate pe toate aceste arhitecturi, inclusiv x , pe care le-am folosit ca exemplu În tabel descrie instrucțiuni care cauzează probleme pentru virtualizare (Robin și Irvine, ) Ele aparțin a două clase comune de instrucțiuni: ♦ citirea registrelor de control în modul utilizator care indică faptul că un sistem de operare invitat rulează pe mașina virtuală (de exemplu, instrucțiunea POPF menționată mai devreme), ♦ verificări de securitate conform cerințelor arhitecturii segmentate, presupunând că sistemul de operare rulează la cel mai înalt nivel de privilegii Tabelul Rezumatul a instrucțiuni xb care cauzează probleme pentru virtualizare (Robin și Irvine, ) Primele cinci instrucțiuni din partea de sus a tabelului permit unui program în modul utilizator să citească valoarea unui registru de control, cum ar fi registrele tabelului de descriptori, fără a provoca o capcană Verificarea securității arhitecturii xvb segmentate este o capcană pusă de un grup de instrucțiuni afișat în partea de jos a tabelului deoarece fiecare dintre aceste instrucțiuni verifică indirect nivelul de privilegii ca parte a execuției instrucțiunii la citirea registrului de control Verificarea presupune că sistemul de operare trebuie să fie la cel mai înalt nivel de privilegii, ceea ce nu este cazul când se utilizează mașini virtuale invitate Doar instrucțiunea de mutare în registrul de segment încearcă să modifice starea de control, dar verificarea de securitate o împiedică și el să facă acest lucru Categoria problemei Acces la registrele importante fără a lua timp la pornirea în modul utilizator Salvați registrul tabelului de descriptori global (SGDT) Salvați registrul tabelului de descriptori local (SLDT) Salvați registrul tabelului de descriptori de întrerupere (SIDT) Salvați cuvântul de stare a mașinii (SMSW Apăsați semnalizatoarele pe stiva (PUSHF, PUHFD) ) Apariția steaguri din stivă (POPF, POPFD) Comentarii finale Categoria problemei Instrucțiunile eșuează la accesarea mecanismelor de memorie în modul Field-Schlskpm din cauza verificărilor de securitate utilizate în arhitectura Cu condiția ca atât clientul, cât și serverul să fie implicați în proces Numiți mai întâi sistemele utilizate de client și server Unde pot fi plasate dispozitivele cache pentru a accelera procesul? ( ] Proiectați ierarhia memoriei pentru sistem Afișați dimensiunea tipică și latența diferitelor niveluri ale ierarhiei Care este relația dintre dimensiunea memoriei cache și latența accesului? | Care sunt elementele transferului de date între nivelurile ierarhice? Care este relația dintre locația datelor, dimensiunea manei și latența de transfer? ] Lățimea de bandă de comunicație și lățimea de bandă de procesare a serverului sunt doi factori importanți de luat în considerare atunci când proiectați o ierarhie de memorie A cui lățime de bandă poate fi factorul limitator aici? Cum poate fi îmbunătățit acest indicator și cu ce preț? ( ] Acum luați în considerare situația în care mai mulți clienți accesează serverul în același timp Va îmbunătăți această dezvoltare localitatea spațială și temporală? [ Dați un exemplu de când memoria cache poate furniza date învechite Cum să suprimați sau să excludeți astfel de cazuri? Exercițiul În acest exercițiu, vom lua în considerare proprietățile localității memoriei în calculul matricelor Următorul cod este scris în C, unde elementele din același rând sunt stocate unul lângă celălalt iar pentru u-e i J-'l hіSHIOTіNOTP b pentru (J- J pentru ( - ; ( Câte numere întregi de de biți pot fi stocate într-o linie cache de octeți? | | Accesarea care variabile demonstrează localitatea temporală? | Faceți referire la ce variabile demonstrează localitatea spațială? Localitatea depinde atât de ordinea accesului, cât și de locația datelor Aceleași calcule pot fi scrise și în Matlab, așa cum se arată mai jos, care este diferit de stocarea secvențială a elementelor matricei care aparțin aceleiași coloane și fv i-i veto pentru J-L A( J)- (JO)*A(JI) e sfârşitul b lor >J a pentru - A(IJ) • BtJ O) ♦ A(JD; capăt final [ Câte linii cache de octeți vor fi necesare pentru a stoca toate elementele matricei de de biți accesate? [ ] Care variabilă de acces demonstrează localitatea temporală? | | Faceți referire la ce variabile demonstrează localitatea spațială? Exercițiul Dispozitivele de memorie cache joacă un rol important în realizarea ierarhiei de memorie de înaltă performanță atunci când lucrează cu procesoare Următoarea este o listă de referințe de adrese pe de biți date ca adrese de cuvinte a , , | Definiți o adresă binară, o etichetă și un index pentru fiecare dintre aceste legături, presupunând un cache mapat direct cu blocuri de câte un cuvânt fiecare De asemenea, enumerați fiecare link greșit sau ratat, presupunând că memoria cache a fost inițial goală ) Definiți o adresă binară, o etichetă și un index pentru fiecare dintre aceste referințe, presupunând un cache mapat direct cu două blocuri de cuvinte și o dimensiune totală de opt blocuri Exercițiile tjjg listează hit-ul sau ratarea pentru fiecare link, presupunând că cache-ul a fost inițial gol [ ] Vi s-a cerut să optimizați designul cache-ului Calculați numărul total de biți necesari pentru dispozitivele cache enumerate în tabel, presupunând că sunt utilizate adrese pe de biți, constând din cuvinte de aceeași dimensiune sau mai mare Explicați de ce a doua memorie cache, în ciuda dimensiunea sa mai mare a datelor, poate oferi performanțe mai mici decât memoria cache primară [ ] Generați o serie de solicitări de citire care au o rată de ratare mai mică atunci când utilizați un cache de K cu asociativitate cu două canale decât dispozitivele cache enumerate în tabel Afișați o soluție posibilă care va face ca dispozitivele cache enumerate în tabel să aibă aceeași rată de pierdere sau mai mică decât un cache de K Explicați avantajele și dezavantajele acestei soluții ] Formula prezentată la începutul secțiunii Cache Basics demonstrează o metodă tipică de indexare a cache-ului mapat direct, și anume (Block Address) mod (Număr de Cache Blocks) Presupunând adresare pe de biți și blocuri cache de , luați în considerare o altă funcție de indexare: (Block Address | : |) XOR (Block Address [ : ]) Este posibil să folosiți această funcție pentru a indexa memoria cache? ? Dacă da, explicați de ce și luați în considerare orice modificări care ar putea fi necesare în memoria cache Dacă nu este posibil, explicați de ce Capitolul Mare și rapid: Analiza ierarhiei memoriei Exercițiul Pentru o construcție cache mapată directă cu adresare pe de biți, la accesarea acestuia sunt utilizați următorii biți: ipca Compensarea indexului etichetei a - - - b - - - | | Care este dimensiunea liniei de cache (în cuvinte)? [ | Câte elemente conține memoria cache? ( ] Care este raportul dintre numărul total de biți necesari pentru implementarea unui astfel de cache și biții folosiți pentru stocarea datelor? De când computerul a fost pornit, au fost înregistrate următoarele accesări la cache cu adresa de octeți Adresa* ' i ( fl j J ) [ ] j ] , ) Câte blocuri au fost înlocuite? ) Care este rata de accesare? | ] Listați starea cache-ului final unde fiecare element valid este reprezentat ca o intrare Exercițiul Amintiți-vă că avem două strategii de scriere și două strategii de alocare de scriere, iar combinația poate fi implementată fie în cache L , fie în cache L LI " o scriere întârziată dedicată scrierii, nu este dedicată scrierii Scriere înapoi, scrie-alocare Scriere prin scriere, scrie-alocare [ ] Bufferele sunt folosite pentru a reduce latența de acces între diferitele niveluri ale ierarhiei memoriei Pentru această configurație dată, enumerați posibilele buffer-uri necesare între cache-ul Ll și cache-ul și memorie L | | Descrieți procedura de gestionare a unei erori de cache L luați în considerare componentele implicate și dacă este posibil să înlocuiți unitatea modificată | | Pentru configurarea limitelor de excludere pe mai multe niveluri memorie (un bloc poate fi doar într-un singur cache, sau în LI, lnbe Exerciţii ■ L ) Descrieți procedura de gestionare a unei erori de cache de nivel , w incluzând componentele implicate și capacitatea de a înlocui un (■oca) modificat Luați în considerare următorul program și comportamentul memoriei cache R Citiți date la de instrucțiuni Scrieți date la de instrucțiuni Rata de pierdere a memoriei cache de instrucțiuni Rata de pierdere a memoriei cache a datelor Mărimea blocului de cache a datelor (în octeți) b , % % în , % % [ Care este lățimea de bandă minimă a memoriei cache de citire și scriere flash în alocarea de scriere (măsurată în octet pe ciclu) necesară pentru a atinge CPI egal?? ( | Care sunt lățimile de bandă minime de citire ■ scriere pentru un cache de scriere înapoi pe alocare de scriere necesare pentru a atinge un CPI de , presupunând că % din blocurile de cache care trebuie înlocuite sunt modificate? | | Care este lățimea de bandă minimă necesară pentru a obține un CPI de „ , ”? Exercițiul Aplicațiile media care redă fișiere audio sau video fac parte dintr-o clasă de sarcini de lucru numite sarcini de lucru „streaming”; adică aduc o cantitate mare de date, dar cea mai mare parte a acestor secrete nu sunt reutilizate Luați în considerare volumul de lucru video note-com care accesează secvenţial setul de lucru de KB utilizând următorul flux de adrese: , , | [ ] Să presupunem că se utilizează un cache mapat direct, care are o dimensiune de KB și o linie de de biți Care ar fi rata ratate pentru fluxul de adrese afișat mai sus? Cât de mult depinde această rată de pierderi de dimensiunea memoriei cache sau a setului de lucru? Cum puteți caracteriza ratele suferite de o anumită sarcină de lucru pe baza modelului trei C? [ ] Calculați rata de pierdere pentru cache-urile cu dimensiuni de linie de octeți, de octeți și de octeți Ce fel de localitate folosește această sarcină de lucru? [ ] „Prefetch* este o tehnică care utilizează modele de adrese previzibile pentru a introduce empiric Capitolul linii de cache atunci când o anumită linie de cache este accesată Un exemplu de preluare preliminară este un buffer de flux care preface liniile de cache succesive într-un buffer separat atunci când este introdusă o anumită linie de cache Dacă datele sunt în memoria tampon de preluare preliminară, acestea sunt considerate o accesare și datele sunt mutate în cache, după care următoarea linie cache este preîncărcată Să presupunem că folosim un buffer de flux bidirecțional și că latența cache este setată pentru a permite încărcarea cheii cache înainte ca linia anterioară de cache să se termine procesarea Care ar fi rata de pierdere pentru fluxul de date afișat mai sus? Dimensiunea blocului cache (B) poate afecta atât rata de pierdere, cât și latența de ratare Găsiți dimensiunea optimă a blocului cache cu următoarele rate de ratare prezentate în tabelul de mai jos pentru diferite dimensiuni de bloc, presupunând că este utilizată o mașină CPI egal cu unu, iar numărul mediu de accesări (atât la instrucțiuni, cât și la date) este de , pe instrucțiune L % , % , % % b % % % , % % ) Care este dimensiunea optimă a blocului pentru o latență ratată de * V cicluri? ) Care este dimensiunea optimă a blocului pentru o latență ratată de ♦ V cicluri? [ | Care este dimensiunea optimă a blocului pentru o latență de ratare constantă? Exercițiul În acest exercițiu, veți analiza diferitele moduri în care volumul afectează performanța generală În general, timpul de acces la cache este proporțional cu dimensiunea Să presupunem că o operație de acces la memorie durează ns și că aceste accesări la memorie reprezintă % din toate instrucțiunile Următorul tabel prezintă date pentru dispozitivele cache L conectat la două procesoare, PI și P Dimensiunea memoriei cache L , rata de pierderi L KB, % timpul de accesare L , ns a PI , , Р , , b PI , , Р , , Exercițiile ( ) Care ar fi vitezele de ceas ale procesoarelor PI ■ P , respectiv, având în vedere că timpii de accesare pentru dispozitivele cache L sunt determinate de timpii ciclului de ceas a acestor procesoare? [ | Care este timpul mediu de acces la date (AMAT) pentru fiecare dintre procesoarele PI și P ? [ ] Care va fi IPC total pentru fiecare dintre procesoarele PI și P , presupunând că IPC de bază! este ? Ce procesor va rula mai repede? Următoarele trei sarcini vor analiza adăugarea memoriei L oui la procesorul PI pentru a compensa, aparent, volumul limitat al czsh-pa memory de la nivelul său L Când rezolvați aceste probleme, utilizați volumele dispozitivelor de memorie flash L și timpii de accesare din tabelul anterior Rata de pierdere a memoriei cache L afișată este rata de ratare locală — Mărimea memoriei cache L Factor lipsă la accesarea L , % timpul de accesare la accesarea L este l Kb b MB | Ce este AMAT pentru PI atunci când este mărit cu cache L ? S-a îmbunătățit sau agravat AMAT cu cache L ? [ ] Care este CPI-ul general pentru PI atunci când este mărit cu un cache cu un CPI de bază de ? | Care procesor este mai rapid, având în vedere că PI are acum un cache L ? Dacă PI mai rapid De ce rata de pierderi are nevoie P când își accesează memoria cache L pentru a se potrivi cu performanța PI? Dacă este mai rapid decât P De ce rata de pierderi are nevoie PI când își accesează memoria cache L pentru a se potrivi cu performanța lui P ? Exercițiul Acest exercițiu analizează rezultatele diferitelor modele de cache, în special comparând un cache folosind asociativitatea cu memoria cache din Secțiunea folosind maparea directă Când rezolvați aceste probleme, ar trebui să vă referiți la tabelul fluxurilor de adrese prezentat în Exercițiul | Utilizarea legăturilor din exercițiul arată conținutul final al unei memorii asociative cu trei canale având blocuri de două cuvinte și o dimensiune totală de de elefanți Utilizați algoritmul de înlocuire LRU Pentru fiecare link, afișați indexul, eticheta și biții de compensare a blocului și definiți un eveniment de accesare sau ratare | Folosind legăturile din Exercițiul , afișați conținutul final pentru un cache complet asociativ cu blocuri constând din Capitolul un cuvânt și o lungime totală de opt cuvinte Utilizați algoritmul de înlocuire LRU Pentru fiecare link, afișați indexul, eticheta și biții de compensare a blocului și definiți un eveniment de accesare sau ratare [ Folosind referințele din Exercițiul , determinați care ar fi rata de pierderi pentru un cache complet asociativ cu blocuri de două cuvinte și o dimensiune totală de opt cuvinte dacă ar fi folosit algoritmul de înlocuire LRU Care va fi rata de pierderi atunci când utilizați algoritmul de înlocuire MRU (utilizat cel mai recent)? În cele din urmă, determinați cea mai bună rată de rateuri pentru acest cache folosind orice strategie de înlocuire Cache-ul stratificat este o tehnologie importantă pentru a depăși limitările cantității pe care o poate furniza un cache L , menținând în același timp viteza acelui cache L Luați în considerare un procesor cu următorii parametri [ ] Calculați CPI pentru procesor din tabel folosind: ) doar primul nivel de memorie cache; ) memorie cache de al doilea nivel cu mapare directă; ) memorie cache de al doilea nivel cu asociativitate cu opt canale Cum se vor schimba acești indicatori dacă timpul de accesare a operațiunii de memorie este dublat? Vor fi tăiați în jumătate? [ ] Ierarhia cache-ului poate avea mai mult de două niveluri de cicluri și va reduce pro- Exercițiile ■ahov până la % Va oferi aceasta performanță mai bună? Ce, • În general, care sunt avantajele și dezavantajele adăugării cache-ului L ? [ ] Pe procesoarele mai vechi precum Intel Pentium sau Alpha , cache-ul de al doilea nivel era extern (situat pe un alt - fig fig i) în raport cu procesorul principal și cache-ul de primul nivel Deși un astfel de design vă permite să aveți un cache L mai mare, latența accesului la cache a fost semnificativ mai mare, • Lățimea de bandă a fost de obicei mai îngustă, deoarece memoria cache L rulează la o viteză de ceas mai mică Să presupunem că o memorie cache L de KB pe o matriță separată are o rată totală de pierderi de % Cât de mare trebuie să fie memoria cache pentru a se potrivi cu performanța cache-ului L mapat direct prezentat în tabel dacă fiecare KB suplimentar de cache reduce rata totală de pierderi cu , % și memoria cache are un timp total de acces de de cicluri? Exercițiul Pentru sisteme de înaltă performanță, cum ar fi cele care utilizează indexarea B-leaf a bazei de date dimensiunea paginii este determinată în primul rând de dimensiunea datelor și performanța liskului Presupune acea pagină de index B a arborelui este plină în proporție de % cu înregistrări de lungime fixă Utilitatea unei pagini este determinată de adâncimea arborelui său B, calculată ca log (număr de înregistrări) În tabelul următor, prezentat pentru înregistrări de octeți și un disc vechi de ani, cu o latență de ms și un rata de transfer de MB/s, dimensiunea optimă a paginii este de KB Dimensiunea paginii, utilitarul paginii KB sau adâncimea arborelui B, numărul de accesări salvate pe disc Costuri de acces la pagina de index, ms Raportul utilitar/cost , (sau Ioți ( ' x , )) Yu , , , , S , , , , , , , , , , , , , , , , [ ] Care ar fi cea mai bună dimensiune a paginii dacă înregistrările ar fi acum de octeți? ( ) Care ar fi cea mai bună dimensiune a paginii dacă, în aceleași condiții ca în exercițiul , paginile ar fi pline pe jumătate? Capitolul [ Care ar fi cea mai bună dimensiune a paginii dacă, în aceleași condiții ca în exercițiul , se folosește un disc mai modern, cu o latență de ms și o rată de transfer de date de MB/s ? Explicați de ce viitoarele servere ar fi mai bine cu pagini mai mari Stocarea paginilor „cele mai utilizate” (sau „fierbinte”) în DRAM poate reduce numărul de accesări la disc, dar cum este sortat turnați valoarea exactă a „cel mai frecvent solicitat” pentru un anumit sistem? Oamenii de știință de date folosesc raportul dintre costul accesului DRAM și per lic pentru a determina un număr prag de retransmite pagini fierbinți Costul unui acces pe disc este egal cu costul unui disc împărțit la numărul de accesări pe secundă, în timp ce costul stocării unei pagini în DRAM este egal cu costul unui megaoctet de DRAM împărțit la dimensiunea paginii Prețurile tipice pentru DRAM și disc și dimensiunile tipice ale paginilor bazei de date pentru mai multe momente sunt prezentate în tabelul următor Anul cost DRAM, $ MB Dimensiunea paginii, KB Costul discului, /disc Rata de acces la disc, accesări/e , [| | Care este numărul prag de ori de reutilizare pentru aceste trei generații de tehnologie? [ | Care este pragul de reutilizare dacă continuăm să folosim aceeași dimensiune a paginii de KB? Care este tendința aici? [ ] Ce alți factori pot fi modificați pentru a continua să utilizați aceeași dimensiune a paginii (evitând în același timp nevoia de a rescrie software-ul)? Luați în considerare probabilitatea acestor schimbări, având în vedere tehnologiile actuale și tendințele de cost Exercițiul După cum este descris în Secțiunea , memoria virtuală folosește tabele de pagini pentru a ține evidența mapării de la adresele virtuale la adresele fizice Acest exercițiu arată cum un astfel de tabel poate fi actualizat pe măsură ce sunt accesate adrese Următorul tabel arată fluxul de adrese virtuale văzut în sistem Presupune pagini de KB, TLB complet asociativ cu patru intrări și înlocuire completă a LRU Dacă paginile urmează să fie preluate de pe disc, următorul număr cel mai mare de pagină este incrementat a , b la , Exercițiile tampon TLB bit valid Etichetă Numărul paginii fizice și De la Tabelul paginii Biți validă pagină fizică sau locație pe disc cincisprezece disc disc L al -lea zile" paisprezece disc Disc a Folosind fluxul de adrese din tabel și starea inițială afișată a TLB și a tabelului de pagini, arată starea finală a sistemului Și, de asemenea, faceți o listă pentru fiecare apel cu o indicație despre cum s-a încheiat: o lovitură la accesarea TLB accesare în tabelul paginii sau eroare de pagină [ ) Faceți din nou exercițiul , dar acum utilizați K în loc de pagini de K Care ar fi beneficiile utilizării unei dimensiuni mai mari a paginii? Care vor fi dezavantajele? ) Afișați conținutul TLB rezultat când utilizați asociativitatea pe două canale Afișați și conținutul TLB când utilizați maparea directă Discutați despre importanța utilizării TLB-urilor pentru performanță ridicată Cum poate fi gestionat accesul la memoria virtuală fără a utiliza TLB-uri? Există o serie de parametri care afectează dimensiunea totală a tabelului de pagini Urmează o serie de parametri cheie ai tabelului de pagini Mărimea paginii KB Dimensiunea intrării în tabelul paginii, octeți Mărimea virtuală* despre adresa bit a b Capitolul [ Folosind parametrii prezentați în tabel, calculați dimensiunea totală a tabelului de pagini pentru un sistem care rulează cinci aplicații care utilizează jumătate din memoria disponibilă [ ] Folosind parametrii prezentați în tabel, calculați dimensiunea totală a tabelului de pagini pentru un sistem care rulează cinci aplicații care utilizează jumătate din memoria disponibilă, presupunând că este utilizat un tabel de pagini cu două niveluri cu de intrări Să presupunem că fiecare intrare din tabelul paginii principale are o lungime de GB Calculați cantitatea minimă și maximă de memorie necesară ] Un designer de cache dorește să mărească dimensiunea unui dispozitiv cache virtual indexat, etichetat fizic, care are o dimensiune de KB Folosind dimensiunile paginilor enumerate în tabel, determinați dacă este posibil să creați un cache de KB prin mapare directă, având în vedere că fiecare bloc are două cuvinte Cât de mult ar crește un dezvoltator dimensiunea datelor din cache? Exercițiul În acest exercițiu, veți studia optimizarea spațio-temporală pentru un tabel de pagină Următorul tabel prezintă setările sistemului de memorie virtuală Adresă virtuală (biți) ORAM fizică instalată, GB Mărimea paginii, KB Mărimea intrărilor din tabelul paginii, octeți a B b c [ ] De câte intrări aveți nevoie într-un tabel de pagină cu un singur nivel? Câtă memorie fizică este necesară pentru a stoca tabelul de pagini? [ ] Utilizarea unui tabel de pagini cu mai multe niveluri poate reduce consumul de memorie fizică a tabelelor de pagini prin stocarea în acesta numai a înregistrărilor active De câte niveluri de tabele de pagini ar fi necesare în acest caz? Și câte accesări de memorie sunt necesare pentru a traduce adresa dacă a existat o ratare la accesarea TLB? ] Un tabel de pagină inversat poate fi folosit pentru o optimizare suplimentară spațiu-timp Câte intrări ar trebui să fie stocate în tabelul de pagini? În cazul obișnuit și cel mai rău, de câte accesări de memorie sunt necesare pentru a deservi erorile la accesarea TLB, cu condiția ca tabelul hash să fie implementat? Următorul tabel arată conținutul unui TLB cu patru intrări Exercițiile ID de intrare Biți valid Adresă pagină virtuală Schimbare Bit Security Adresă fizică a paginii RW RX YO RW [ ] În ce scenariu bitul de valabilitate al elementului ar fi „resetat la zero”? ( | Ce se întâmplă când o instrucțiune scrie pe pagina i adresa fizică ? Când un TLB gestionat de software este mai rapid decât un TLB gestionat de hardware? c | ] Ce se întâmplă când o instrucțiune scrie pe o pagină cu adresa virtuală xxx? Exercițiul În acest exercițiu, veți explora impactul strategiei de înlocuire asupra ratei ratei Să presupunem că utilizați un cache cu două canale cu patru blocuri Poate un tabel ca acesta este util pentru rezolvarea problemelor așa cum se arată în exercițiul „Mis-uri și numărul de canale de asociativitate cache” din „Reducerea ratei de pierdere a memoriei cache cu o alocare mai flexibilă a blocurilor*” din Secțiunea , prezentată mai jos pentru secvența de adrese „ , , ” Adresa blocului de memorie care este lovit sau ratat Conținutul blocurilor cache după acces bloc Set Set Set Set recurs Memory Miss[ ] Dor de memorie[ ] Memorie| | Miss Pam[ ] Pam( ] Lam| | Miss Sm( | Sm( ] Sm[ | Sm{ | Miss Memorie[ ] Memorie( ] Memorie) Memorie| | Următorul tabel arată secvența adreselor Secvență de adrese a , , Capitolul Mare și rapid: Analiza ierarhiei memoriei [ ] Câte rezultate vor exista cu această căutare adresabilă dacă se folosește înlocuirea LRU? [ ] Câte accesări va avea această secvență de adrese dacă se folosește înlocuirea MRU (utilizată cel mai recent)? ( ) Simulați o strategie de înlocuire arbitrară aruncând o monedă De exemplu, „capete” ar însemna înlocuirea primului bloc, iar „cozi” ar însemna înlocuirea celui de-al doilea bloc din set Câte accesări vor exista pentru o anumită secvență de adrese? [ ] La ce adresă trebuie făcută înlocuirea pentru a reduce numărul de accesări? Câte accesări vor fi cu această secvență de adrese, dacă urmați această strategie „optimă”? Explicați de ce este dificil să implementați o strategie de schimb de cache care este optimă pentru toate secvențele de adrese ] Să presupunem că puteți decide cu privire la fiecare acces la memorie dacă doriți sau nu să păstrați în cache adresa solicitată Ce efect ar putea avea acest lucru asupra ratei de ratare? Exercițiul Virtualizarea memoriei pe două niveluri este necesară pentru a suporta mai multe mașini virtuale Fiecare mașină virtuală trebuie să controleze maparea adresei virtuale (VA) la adresa fizică (PA), iar hypervisorul trebuie să mapeze adresa fizică (PA) a fiecărei mașini virtuale la adresa reală a mașinii (MA) Pentru a accelera aceste mapări, o tehnică software numită paginare umbră duplică tabelele de pagini ale fiecărei mașini virtuale din hypervisor și interceptează modificările mapărilor VA de pe PA pentru a menține integritatea ambelor copii Pentru a scăpa de complexitatea tabelelor de pagini umbra, o tehnică hardware numită tabel de pagini imbricate (sau tabel de pagini extins) menține în mod explicit două clase de tabele de pagini (VA-»PA și PA-»MA) și poate ocoli numai tabelele rgi în hardware Luați în considerare următoarea secvență de operații ) Creați un proces ) Miss acces TLB E> Lipsește pagina, | Rehttyunenie "ohie" o sută [ ] Ce se întâmplă într-o anumită secvență de operații când se utilizează un tabel de pagini umbră și, respectiv, un tabel de pagini imbricate? [ ] Câte accesări de memorie sunt necesare pentru a deservi o pierdere TLB folosind un tabel de pagini normal față de un tabel de pagini imbricat, dat fiind Exercițiile un tabel de pagini cu mai multe niveluri atât în tabelele de delimitare pentru invitați, cât și în tabelele imbricate pe o mașină x ? ( ] Care dintre următoarele este cea mai importantă măsurătoare pentru un tabel de pagini umbră: rata de rateuri de acces TIB, rata de erori TLB, rata de eroare a paginii și latența de gestionare a erorilor? Pagini Care dintre ele următoarele sunt importante pentru un tabel cu pagini imbricate? Opțiunile de paginare în umbră sunt afișate în tabelul următor TLB rollovers nu de instrucțiuni TLB rate latență pentru tabelul de pagini imbricate Numărul de erori de pagină la de instrucțiuni Umbra organizare a erorilor paginii , ciclopi , cicluri ( ] Care este CPI-ul pentru tabelele cu pagini umbra față de tabelele cu pagini imbricate (presupunând doar supraîncărcarea de virtualizare a tabelului de pagini) pentru o sarcină de testare care are în mod normal un CPI de ? ( ] Ce tehnologii pot fi utilizate pentru a reduce costul general implicat în utilizarea tabelelor de umbră de frontieră? ] Ce tehnologii pot fi utilizate pentru a reduce costul general implicat în utilizarea tabelelor de pagini imbricate? Exercițiul Una dintre cele mai mari bariere în calea utilizării pe scară largă a mașinilor virtuale este suprasarcina de performanță asociată cu rularea unei mașini virtuale Următorul tabel listează diferite setări de performanță și comportamente ale aplicației Linia de bază CPI Afișări privilegiate ale sistemului de operare la de instrucțiuni Impactul performanței asupra cârligelor sistemului de operare invitat, cicluri Impactul asupra performanței* asupra cârligelor, ciclurilor Virtual Machine Manager (VMM) Accesuri pe date aaod-aood la de instrucțiuni Timp de acces I/O (inclusiv mie pentru a intercepta OS invitat), cicluri a b , Capitolul ( ) Calculați CPI pentru sistemele de mai sus, presupunând că nu sunt accesate dispozitive I/O Care ar fi CPI-ul pentru dublarea impactului asupra performanței VMM? Tăiind această influență la jumătate? Care ar fi cel mai mare cost pentru a prelua controlul asupra VMM Ce se întâmplă dacă o companie de software pentru mașini virtuale dorește o performanță de %? ( | Accesurile dispozitivelor I/O au adesea un impact mare asupra performanței generale a sistemului Calculați CPI-ul mașinii utilizând caracteristicile de performanță prezentate mai sus, presupunând că este utilizat un sistem nevirtualizat Calculați din nou IPC-ul Dar acum se utilizează deja un sistem virtualizat Cum se schimbă aceste CPI atunci când accesările I/O sunt reduse la jumătate în sistem?Explicați de ce aplicațiile legate de I/O sunt doar puțin afectate de virtualizare | | Comparați și diferențiați ideile de memorie virtuală și mașini virtuale Cum pot fi comparate obiectivele fiecăreia dintre aceste idei? Care sunt avantajele și dezavantajele acestor idei? Listați acele cazuri în care este de dorit să utilizați memoria virtuală și acele cazuri în care este de dorit să folosiți mașini virtuale [ ) Secțiunea tratează virtualizarea bazată pe presupuneri că sistemul virtualizat rulează aceeași arhitectură de set de instrucțiuni care este utilizată pe hardware-ul original Dar o posibilă utilizare a virtualizării este emularea arhitecturii setului de instrucțiuni care nu se potrivesc cu arhitecturile originale QEMU poate servi drept exemplu emulând diferite arhitecturi precum MIPS, SPARC și PowerPC Numiți o serie de dificultăți asociate cu o astfel de virtualizare Este posibil ca un sistem emulat să ruleze mai repede decât o mașină cu arhitectura sa nativă de set de instrucțiuni? Exercițiul În acest exercițiu, veți folosi blocul de control pentru controlerul cache pentru un procesor cu un buffer de scriere Pentru a vă dezvolta propriile mașini de stări, utilizați mașina de stări prezentată în Figura ca punct de plecare Să presupunem că controlerul este proiectat pentru memoria cache mapată directă simplă discutată în Secțiunea , „Cache simplă”, dar cu adăugarea unui buffer de scriere cu un singur bloc Trebuie amintit că buffer-ul de scriere servește ca stocare temporară, astfel încât procesorul să nu fie nevoit să aștepte două accesări la memorie în caz de pierdere la accesarea blocului modificat În loc să scrie înapoi blocul modificat înainte de a citi noul bloc, acesta pune blocul modificat în buffer și începe imediat să citească noul bloc Apoi blocul modificat poate fi scris în memoria de operare în timp ce procesorul este ocupat cu alte lucrări Exercițiile ] Ce ar trebui să se întâmple dacă procesorul a emis o solicitare Loviți o lovitură de memorie cache în timp ce un bloc era scris înapoi în memoria principală din memoria tampon? ] Ce ar trebui să se întâmple dacă procesorul a emis o solicitare, ați ratat cache-ul, în timp ce blocul era scris în memoria principală din memoria tampon? ] Dezvoltați o mașină de stări proiectată să utilizeze * ■zonanke tampon de scriere Exercițiul Menținerea integrității cache-ului se referă la modul în care merg mai multe procesoare și un anumit bloc de memorie cache Următorul tabel prezintă două procesoare • operațiunile lor de scriere și citire pe două cuvinte bloc diferite cache X (inițial X| ] - X| ] - ) R R > f > ] > ] - ( ] • g >(іі ~ |b ( ) - x ( ) - XO) - X (P - ( ] Enumerați valorile posibile pentru un anumit bloc cache pentru a implementa un protocol adecvat pentru a menține integritatea datelor cache Numiți cel puțin o altă valoare posibilă a blocului dacă fereastra pr"l nu asigură integritatea datelor cache Specificați secvența de operații permisă pentru fiecare set de procesor-cache pentru protocolul snoop pentru a finaliza operațiunile de citire/scriere de mai sus [ ] Care este numărul de greșeli în cel mai bun și cel mai rău caz necesar într-un acces în cache pentru a finaliza instrucțiunile de citire-scriere listate Integritatea memoriei este preocupată de modul în care arată mai multe elemente de date Următorul tabel prezintă două procesoare și operațiunile lor de citire/scriere pe diferite blocuri cache (L și B sunt setate inițial la ) R R a A • B - A— LA"' C C - B; - A b A • " • A-B- C - - A ( ] Enumerați valorile posibile ale C și D pentru o implementare care garantează conformitatea cu prevederile privind integritatea datelor enumerate la începutul Secțiunii [ ] Numiți cel puțin o altă pereche posibilă de valori pentru C și D dacă nu sunt prevăzute prevederile menționate Capitolul ( ] Ce combinații facilitează implementarea protocolului pentru diferite combinații de strategii de scriere și strategii de alocare a cache-ului de scriere? Exercițiul Microprocesoarele Barcelona și Nehalem se referă la microprocesoare implementate pe un singur cip (chip multipmcessor - CMP), având mai multe nuclee cu propriile dispozitive de memorie cache Designul cache-ului L al CMP folosește compromisuri interesante Următoarele tabele arată ratele de latență ratate și lovite pentru cele două benchmark-uri pentru a compara modelele cu dispozitive individuale pentru fiecare nucleu și un dispozitiv cache L partajat Să presupunem că o pierdere de cache L are loc o dată la de instrucțiuni Individ!, % Total % Coeficientul de rateuri pe instrucțiune la îndeplinirea sarcinii de control A , , Coeficientul de rateuri pe instrucțiune la efectuarea sarcinii de control B , , Următorul tabel arată latențele hit-urilor memorie cache partajată indiamduapyaw hash a b ( ] Care design cache este cel mai bun pentru fiecare benchmark? Folosiți datele pentru a vă susține concluziile ( ] Latența cache-ului partajat crește odată cu dimensiunea CMP Alegeți cel mai bun design dacă latența cache-ului L partajată s-a dublat [ ] Luați în considerare avantajele și dezavantajele cache-urilor L partajate și individuale pentru încărcăturile de lucru cu un singur thread, multi-thread și multiprogram și reconsiderați-le în cazul utilizării cache-urilor interne L [ ] Să presupunem că CPI-ul de bază pentru ambele benchmark-uri este (cu un cache L ideal) Cât de mult câștig de performanță oferă un cache L partajat cu un cache nslol și neblocant? Ce îmbunătățire poate fi obținută prin utilizarea unui cache L cu nippled? Exerciții [ ] Să presupunem că în noile generații de procesoare, numărul de nuclee se dublează la fiecare luni Câtă lățime de bandă a memoriei off-chip va trebui mărită pentru ca un procesor din să atingă același nivel de performanță pe un „single core? ) Privind întreaga ierarhie a memoriei, ce optimizări pot crește numărul de rateuri simultane? Exercițiul Acest exercițiu vă va arăta cum să definiți un jurnal de server web ! și a studiat optimizarea codului pentru a crește viteza de procesare a jurnalului Structura de date pentru jurnal este definită după cum urmează și a întâlnit intrarea { int srcIP ctiar u [ ]; / a respectat ₽-adresă ȘI URI solicitat (de exemplu, „GEi index htal”) lung lung refTine int statui: cti ur(int status) // perioada pncoe a stării specificate | ] Ce câmpuri de intrare în jurnal va accesa această funcție de procesare a jurnalului? Câte pierderi de cache pentru fiecare intrare va cauza această funcție în medie, presupunând blocuri de cache de de octeți și fără preîncărcare? [ ) Cum poate fi rearanjată structura datelor pentru a îmbunătăți eficiența cache-ului și a localității de acces? Afișați codul de definire a structurii [ ] Dați un exemplu de altă funcție de procesare a jurnalelor care ar fi mai potrivită pentru o organizație diferită a structurii de date Dacă ambele funcții sunt importante, cum poate fi rescris programul pentru a îmbunătăți performanța generală? Faceți o copie de rezervă a raționamentului dvs cu cod și fragmente de date Pentru următoarele sarcini, utilizați datele de referință „Performanța cache pentru benchmark-urile SPEC CPU ” (www es wisc edu/mutofacet/misc/spec cache-data/) pentru benchmark-urile nap prezentate în tabelul următor Și apsi/tacerec b periomk/awmp Capitolul [ | Pentru diferite tipuri de erori (forțate, legate de capacitate și legate de coliziuni), care este reducerea ratelor de rateuri pentru fiecare sarcină de testare când se utilizează dispozitive cache cu asociativitate variabilă de kb? ( | Selectați gradul de asociativitate care urmează să fie aplicat de memoria cache de date L de KB partajată de ambele sarcini Dacă memoria cache L urmează să fie mapată direct, selectați gradul de asociativitate pentru memoria cache L L , care are o dimensiune de MB [ ] Dați un exemplu în tabelul ratelor de ratare în care creșterea gradului de asociativitate crește rata de pierdere Proiectați o configurație cache și un flux de acces pentru a demonstra acest fenomen Răspunsuri la întrebări pentru autoexaminare Secțiunea : și (Răspunsul este incorect deoarece costul ierarhiei memoriei variază de la computer la computer, dar în cel mai mare cost este de obicei DR?\M ) Secțiunea : și O suprasarcină mai mică poate permite blocuri de dimensiuni mai mici, deoarece nu este nevoie să amortizați atât de mult timp de așteptare, iar o lățime de bandă mai mare a memoriei duce, de obicei, la blocuri mai mari, deoarece suprasarcina ratată devine puțin mai mare Secțiunea : Secțiunea : -a -p, Z-b al -lea Secțiunea : (Erorile forțate pot fi reduse prin creșterea dimensiunii blocului și prin pre-eșantionare, deci afirmația nu este adevărată ) Capitolul Stocarea informațiilor și alte subiecte legate de I/O Combinația dintre lățime de bandă și capacitate vă permite să accesați rapid și fiabil o colecție de conținut în continuă expansiune pe discuri în creștere rapidă și și stocare pe Internet George Gilder Capitolul Stocare și alte subiecte I/O Introducere Dacă înghețarea computerului și necesitatea de a reporni este doar enervantă de oameni apoi o prăbușire cu pierderea memoriei îi înfurie Prin urmare, standardul de fiabilitate pentru mediile de stocare a informațiilor este mult mai ridicat decât pentru mediile de calcul Rețelele sunt, de asemenea, construite pentru a supraviețui eșecurilor de transmisie, inclusiv o serie de mecanisme de detectare a defecțiunilor și de recuperare după ele Prin urmare, în sistemele I/O, accentul se pune de obicei mult mai mult pe fiabilitate și cost, în timp ce în procesoare și memorie, accentul se pune pe performanță și cost Proiectarea sistemelor I/O trebuie să ia în considerare și posibilitatea de extindere și diversitatea dispozitivelor, ceea ce nu este tipic pentru procesoare Extensibilitatea depinde de capacitatea de stocare, un alt parametru de proiectare pentru dispozitivele I/O; sistemele pot necesita capacități minime de stocare pentru a finaliza sarcinile Deși performanța nu este cel mai important factor pentru dispozitivele I/O, nici aici nu este atât de simplu De exemplu, atunci când lucrați cu unele dispozitive, accentul se pune pe latența accesului, în timp ce atunci când lucrați cu alte dispozitive, lățimea de bandă este considerată un element critic parametru În plus, performanța depinde de multe aspecte ale sistemului: caracteristicile dispozitivului, comunicarea între dispozitiv și restul sistemului, ierarhiile memoriei și ale sistemului de operare Toate componentele, de la dispozitivele I/O individuale la procesor și software-ul de sistem, vor afecta fiabilitate extensibilitatea și performanța sarcinilor care implică I/O Pe fig Figura prezintă structura unui sistem simplu cu dispozitivele sale I/O Dispozitivele I/O sunt incredibil de diverse Trei caracteristici sunt folosite pentru a organiza această diversitate: ♦ Comportament Intrare (citit o dată), ieșire (doar scriere, nu poate fi citită) sau stocare (poate fi recitit și, de obicei, rescris) ♦ Partener Fie o persoană, fie o mașină la celălalt capăt al dispozitivului I/O, fie furnizând date la intrare, fie citind date la ieșire ♦ Rata datelor Rata de vârf la care datele pot fi transferate între un dispozitiv I/O și memoria principală sau procesor Atunci când proiectați sisteme I/O, este util să cunoașteți cerințele maxime ale unui dispozitiv De exemplu, tastatura ca dispozitiv de intrare este utilizată cu o rată de transfer de date de vârf de aproximativ octeți pe secundă În tabel prezintă unele dintre dispozitivele I/O conectate la computere Cele patru dispozitive importante de intrare/ieșire: mouse, afișaj grafic, disc și rețea au fost discutate pe scurt în Capitolul Acest capitol va analiza mai atent dispozitivele de stocare și problemele conexe Introducere Comunicarea între memorie și dispozitivele oda-ashvoda Operațional memorie Orez în Setul obișnuit de dispozitive de intrare-ieșire Conexiuni între dispozitivele de ieșire vepda CPU și memoria sunt denumite istoric magistrală, nume care înseamnă „paralel-la-paralel”, iar majoritatea conexiunilor I/O astăzi tind să fie „de-a lungul liniilor de magistrală” Ordinea în care este evaluată performanța dispozitivului I/O depinde de modul în care este utilizat În unele circumstanțe, accentul este pus pe o jumătate de milimetru de lățime de bandă a sistemului În astfel de cazuri, cel mai important indicator va fi lățimea de bandă Chiar și lățimea de bandă poate fi estimată în două moduri diferite: I Câte date pot fi mutate prin sistem într-o anumită perioadă de timp? Câte operațiuni I/O pot fi efectuate pe unitatea de timp? Ce rating de performanță este cel mai bun poate depinde de circumstanțe specifice De exemplu, în multe aplicații multimedia, cele mai multe solicitări I/O sunt pentru fluxuri de date de argilă, iar lățimea de bandă de date devine o caracteristică importantă Apeluri de dispozitive I/O necorelate Un exemplu de astfel de mediu ar fi biroul de procesare a impozitelor de la Serviciul National IncomeTax (NITS) din SUA Acest serviciu este ocupat în principal cu prelucrarea unui număr mare de formulare în timpul alocat; fiecare formular fiscal se pastreaza separat si este relativ mic Un sistem orientat spre transferul de fișiere mari ar putea fi bine, dar un sistem I/O capabil să suporte transferul simultan Capitolul Stocarea informațiilor și a altor subiecte legate de input-output a oferi o mulțime de fișiere mici poate fi mult mai ieftin și poate gestiona milioane de formulare fiscale mult mai rapid Tabelul c Varietate de dispozitive I/O Aceste dispozitive pot diferi în funcție de scopul propus: pentru intrarea, ieșirea sau stocarea informațiilor, partenerii lor de comunicare (oameni sau alte computere) și rata lor de transfer de date de vârf Ratele de transfer de date se întinde pe opt ordine de mărime Rețineți că o rețea poate să fie atât un dispozitiv de intrare, cât și un dispozitiv de ieșire, dar nu poate fi folosit pentru a stoca informații Ratele de date pentru dispozitive sunt întotdeauna date în baza , deci Mbps = bps Comportamentul dispozitivului Partener Rata de transfer de date, Mbps Intrare tastatură Man , Mouse Typing Man ooh pentru Intrare vocală Intrare umană , Intrare sunet Intrare aparat Intră în scaner Intră în Man Ieșire vocală Concluzie Man , Ieșire sunet Ieșire Man în oooh Imprimanta laser Concluzie Man Display grafic Output Man - Modem prin cablu Intrare sau ieșire Mașină , - , Rețea / LAN Intrare sau ieșire Mașină - Mașină de intrare sau de ieșire în rețea / WLAN - Masina de depozitare a discurilor optice Mașină de depozitare bandă magnetică - Mașină de stocare a memoriei flash - Mat HI NY DISC Mașină de depozitare - În alte aplicații, accentul se pune pe timpul de răspuns, care, dacă vă amintiți, este timpul total petrecut pentru o anumită sarcină Dacă cererile I/O sunt prea lungi, timpul de răspuns va depinde foarte mult de debit, dar în multe medii majoritatea acceselor vor fi scurte, iar sistemul I/O va reduce latența fiecărei cereri și va oferi cel mai bun timp de răspuns Pe mașinile cu un singur utilizator, cum ar fi desktop-urile și laptopurile, timpul de răspuns este la solicitările I/O „ „ Citirea de la dispozitivele I/O sau pentru o caracteristică cheie a unui derivat l- lis în aceste dispozitive NOST Fiabilitate, fiabilitate și disponibilitate Un număr mare de aplicații, în special cele utilizate pentru calcul pe vasta piață comercială, necesită atât o lățime de bandă mare si timp scurt de raspuns Exemplele includ bancomate, sisteme de preluare a comenzilor și de urmărire a inventarului, servere de fișiere și servere web În astfel de medii, se acordă atenție atât timpului petrecut pentru fiecare sarcină cât și numărului de sarcini procesate ■ pe secundă Numărul de cereri ATM care pot fi procesate într-o oră nu este ■ rol de încredere, dacă fiecare astfel de solicitare durează minute - veți pierde pur și simplu acei clienți! Similar dacă puteți procesa rapid fiecare solicitare la ATM, dar puteți procesa doar un număr mic de hummocks la un moment dat, nu veți putea deservi un număr mare de bancomate sau costul hardware-ului computerului pe ATM va fi prea mare Astfel, trei clase* de desktop-uri, servere și computere încorporate depind de fiabilitatea I/O și de cost Desktop-urile și sistemele încorporate se concentrează în primul rând pe timpul de răspuns și varietatea dispozitivelor I/O, în timp ce sistemele server se concentrează pe lățimea de bandă și pe extensibilitatea I/E O dispozitive Fiabilitate, fiabilitate și pregătire Utilizatorii au nevoie de dispozitive de stocare fiabile, dar cum se poate determina acest lucru? În industria computerelor, doar să te uiți la un dicționar nu te va duce nicăieri După multe dezbateri, a fost elaborată următoarea definiție standard (Laprîe ): Fiabilitatea sistemelor informatice constă în calitatea furnizării serviciilor care inspiră încredere într-un anumit serviciu Furnizarea serviciilor de către un sistem constă în comportamentul real observabil al acestui sistem din partea unui alt sistem (sau sisteme) care interacționează cu utilizatorii acestui sistem Componenta specificată are și un anumit comportament ideal iar specificația serviciului este o descriere agreată a comportamentului așteptat O defecțiune a sistemului are loc atunci când comportamentul real se abate de la comportamentul prescris Astfel, pentru a determina non-repudierea, trebuie să ne referim la specificațiile comportamentului așteptat Apoi utilizatorii vor vedea tranzițiile sistemului între două stări de furnizare a serviciilor în ceea ce privește cerințele tehnice pentru serviciu (serviciu): Furnizarea de servicii atunci când serviciul este furnizat în conformitate cu cerințele Încetarea prestării serviciilor atunci când calitatea serviciului diferă de cerințele pentru acesta Capitolul - Stocarea informațiilor și a altor subiecte legate de input-you în casă Tranzițiile de la starea la starea sunt cauzate de defecțiuni iar tranzițiile de la starea la starea se numesc recuperări Eșecurile pot fi permanente sau intermitente Acestea din urmă sunt mai dificile deoarece problema este mai dificil de diagnosticat atunci când sistemul fluctuează între două stări Mult mai ușor de determinat cauza defecțiunilor persistente Aceste definiții conduc la două concepte înrudite: fiabilitate și disponibilitate Fiabilitatea este determinată de durata furnizării continue a serviciilor - sau care este același cu MTBF Prin urmare timpul dintre defecțiuni (rime medie cu eșec MTTF) discuri prezentate în tabel este un indicator de fiabilitate Un concept înrudit este rata anuală de eșec (AFR), care este procentul de dispozitive despre care se așteaptă să se defecteze într-un an, având în vedere un anumit MTTF O întrerupere a serviciului este măsurată prin timpul mediu până la recuperare (timpul mediu Coger, MTTR) Timpul mediu dintre eșecuri (MTBF) este pur și simplu suma MTTF + MTTR Deși termenul MTBF este destul de comun, în majoritatea cazurilor MTTF este mai potrivit Disponibilitatea este o măsură a furnizării de servicii în raport cu tranzițiile între două state - furnizarea și terminarea Pregătirea statistică are următoarea definiție cantitativă: MTTF Sunt gata (MTTF♦MTTR) Fii atent la asta că fiabilitatea și disponibilitatea sunt măsuri cuantificabile și nu sinonime cu fiabilitatea Care este motivul eșecurilor? În tabel este un rezumat al mai multor articole care colectează date despre cauzele defecțiunilor în sistemele informatice și de telecomunicații Desigur, o cauză foarte comună a eșecurilor este factorul uman Pentru a crește MTTF, puteți îmbunătăți calitatea componentelor sau a sistemelor de proiectare pentru a continua să lucreze în prezența componentelor eșuate Prin urmare, eșecul trebuie definit în funcție de situație Este posibil ca o defecțiune a unei componente să nu ducă la o defecțiune a sistemului Pentru a clarifica aceste diferențe, termenul „defecțiune” este folosit pentru a defini defecțiunea unei componente Există trei moduri de a crește MTTF: Prevenirea defectelor Prevenirea defectelor prin excelență în proiectare Toleranță la erori Utilizarea redundanței, aplicată în primul rând defecțiunilor hardware, care permite ca serviciile să fie finalizate cu succes conform specificațiilor, în ciuda unui defect Secțiunea descrie abordări bazate pe utilizarea matricelor RAID concepute pentru a face un dispozitiv de stocare tolerant la erori în detrimentul toleranței la erori Fiabilitate, fiabilitate și disponibilitate Predicția defectelor Predicția apariției și formării defectelor în legătură cu defecțiunile hardware și software permițând înlocuirea unei componente înainte de apariția unui defect bltab Date rezumative privind studiul cauzelor defecțiunilor Deși pentru a colecta date despre dacă operatorii înșiși sunt cauzele defecțiunilor destul de dificil, deoarece cauzele defecțiunilor sunt adesea înregistrate de către operatori înșiși, aceste studii conțin astfel de date Alte categorii de cauze, precum dezastrele naturale, erau frecvente, dar proporția lor era extrem de mică Primele două rânduri au fost preluate din lucrarea clasică a lui Jim Gray (JimGray ), care este încă citată pe scară largă la două decenii după ce aceste date au fost colectate Următoarele două rânduri sunt preluate dintr-un articol al lui Murphy și Gent după ce au studiat cauzele defecțiunilor de-a lungul timpului în sistemele VAX („Measunng system and software reliabihty using an automated data collection process”, Quaitty and ReliatHlity Engineering Internațional : , septembrie- Octombrie - ) Liniile cinci și șase arată rezultatul unui studiu FCC privind defecțiunile în rețeaua de telefonie publică comutată din SUA publicat de Kuhn (CiGtn) (-Sources ol fallure in the public switched telephone network*, IEEE Computer : , aprilie , - ) și Patty Enriquez Oppenheimer, Ganapat și Patterson oferă un studiu a trei servicii de internet (Oppenheimer, Ganapatti, Ra Pegson ) p* Operator Program Equipment System Anul colectării datelor * % % Data Center (Tandem) % % % Data Center (Tandem) % % % Centrul de procesare a datelor (DEC VAX) % % % Data Center (DEC VAX) * % % Rețea telefonică publică comutată - Rețeaua telefonică în cifre din SUA % % % Rețea de telefonie publică comutată - Rețea de telefonie publică din SUA % % % Servicii de internet Reducerea timpului mediu de recuperare (MTTR) poate contribui la disponibilitate la fel de mult ca și creșterea timpului dintre eșecuri (MTTR) De exemplu, instrumentele pentru detectarea defectelor, diagnosticare și reparare pot ajuta oamenii, software-ul și hardware-ul să reducă timpul de recuperare Capitolul Stocarea informațiilor și alte subiecte I/O independența europeană O proprietate a unui dispozitiv de stocare care permite datelor să-și păstreze valoarea chiar și atunci când alimentarea este oprită Urmări Unul dintre câteva mii de cercuri concentrice care alcătuiesc suprafața unui disc magnetic Sector Unul dintre segmentele care alcătuiesc o pistă pe un disc magnetic, un sector este cea mai mică unitate de date care este citită sau scrisă pe un disc Autotestare Care dintre următoarele afirmații este adevărată în ceea ce privește fiabilitatea: Dacă sistemul respectă standardul, atunci toate componentele sale realizează tot ceea ce se așteaptă de la ele Disponibilitatea este un indicator cantitativ, exprimat ca procent din timpul în care sistemul face totul ce se asteapta de la ea Fiabilitatea este un indicator cantitativ al furnizării continue de servicii adecvate de către sistem Principala sursă de eșec în zilele noastre este software-ul Stocare pe disc După cum sa discutat în Capitolul I, discurile magnetice se bazează pe utilizarea unui platou acoperit magnetic în mișcare și a capetelor de citire/scriere în mișcare pentru a accesa discul Dispozitivul de stocare pe disc este nevolatil, datele rămân pe el chiar și după ce alimentarea este oprită Discul magnetic conține un set de plăci ( - ), fiecare având două suprafețe de disc adecvate pentru înregistrare Pachetul de plăci se rotește la până la rpm și variază în diametru de la unu la trei inci și jumătate Fiecare suprafață a discului este împărțită în cercuri concentrice numite piste De obicei, fiecare suprafață conține între și de piste Fiecare piesă din ocheul său este împărțită în sectoare care conțin informații; fiecare pistă poate avea până la de sectoare Dimensiunea sectorului este de obicei de octeți, deși există o inițiativă de a crește dimensiunea sectorului la de octeți O secvență scrisă pe un mediu magnetic constă dintr-un număr de sector, un interval, informații pentru acel sector, inclusiv un cod de corectare a erorilor, un interval, un număr de sector următor și așa mai departe Inițial, toate piesele aveau același număr de sectoare și, prin urmare, același număr de biți Odată cu introducerea înregistrării zone bil (ZBR) la începutul anilor , unitățile de disc au început să utilizeze un număr diferit de sectoare (și, prin urmare, de biți) pe pistă iar Pentru a accesa datele, sistemul de operare trebuie să mute discul printr-un proces în trei pași Primul pas este poziționarea coloanei pe pista corectă Această operație se numește căutare, iar timpul necesar capului pentru a trece la pista dorită se numește timp de căutare Producătorii de discuri oferă informații despre timpul minim de căutare, timpul maxim de căutare și timpul mediu de căutare în manualele lor Primele două sunt ușor de măsurat, dar timpul mediu este deschis unei interpretări ample deoarece depinde de distanța de căutare Producătorii au decis să calculeze timpul mediu de căutare ca suma timpului pentru toate operațiunile militare posibile împărțită la numărul de astfel de operațiuni Timpul mediu de căutare este de obicei anunțat între ms și ms, dar în funcție de aplicație și de programarea cererii de disc, timpul mediu real de căutare poate fi de la % până la % din publicitate din cauza localității Această localitate decurge atât din ■actajul secvenţial al apelurilor către acelaşi fişier, cât şi din faptul că sistemul de operare încearcă să grupeze astfel de apeluri prin dispecerare De îndată ce capul ajunge la pista dorită, ar trebui să așteptați până când sectorul dorit cade sub capul de citire și scriere Numiți timpul acestei așteptări; latența de rotație sau latența de rotație Latența medie pentru a obține informațiile corecte este jumătate din timpul de rotație a discului Deoarece discul se rotește cu o viteză de până la de rotații pe minut, rata medie de rotație este între următoarele valori: , tură , s - , ms rpm o /min[ s"ukd ] \ în minut/ , tură , tură rpm, G" rpm i - , s- , ms bo în minutul i Ultima componentă a accesului la disc, timpul de transfer de date, este timpul de transfer al blocului de biți Timpul de transfer este o funcție de dimensiunea sectorului, viteza de rotație și densitatea pistei Rata de transfer de date în a fost în intervalul de la la M yt/s Una dintre dificultăți este că că majoritatea controlerelor de disc au o memorie cache încorporată care stochează sectoarele transferate: Căutare Procesul de poziționare a capului de citire-scriere peste pista dorită a discului Latența de rotație Denumit și întârziere de rotire Timpul necesar pentru rotirea sectorului dorit sub holodeck-ul de citire-scriere al sectorului dorit: este de obicei luat ca timp de jumătate de rotație al discului Capitolul Stocarea informațiilor și alte subiecte legate de I/O Ratele de transfer în cache tind să fie mai mari și ar putea ajunge până la MB/s ( GB/s) în Astăzi, majoritatea transmisiilor de date sunt lungi de mai multe sectoare Controlerul de disc se ocupă de obicei de toate complexitățile managementului discului și transferului de date între disc și memorie Controlerul adaugă o componentă finală de timp de acces la disc, controlerul remm, care este supraîncărcarea pe care o suportă controlerul în efectuarea unui acces I/O Timpul mediu de operare I/O va consta din aceste patru ori plus timpul de așteptare rezultat din faptul că discul este utilizat de alte procese Exercitiul Timpul de citire a discului Care ar fi timpul mediu de citire sau scriere pentru un sector de octeți pentru un disc tipic de rpm? Timpul mediu de căutare este de ms rata de transfer de date - MB / s iar overheadul controlerului este de , ms Să presupunem că discul este inactiv, deci nu există timeout Răspuns Timpul mediu de acces la disc este egal cu timpul mediu de căutare + latența medie de rotație ♦ timpul de transfer secret ♦ overhead controler Folosind timpul mediu de căutare declarat, răspunsul este: , ture * , KB , ms , , ♦ ms- * * " - ms rpm MB/s Dacă timpul mediu de căutare măsurat este de % din timpul mediu revendicat, răspunsul este: , ms ♦ , ms * , ms - , ms = , ms Fii atent la asta că atunci când se ia în considerare timpul de căutare mediu măsurat mai degrabă decât timpul de căutare revendicat, latența de rotație poate deveni cea mai mare componentă a timpului de acces Densitatea de înregistrare a discurilor a crescut în ultimii de ani După cum este ilustrat în Figura , creșterea densității și scăderea dimensiunii fizice a discului este incredibilă Eforturile multor dezvoltatori de discuri au dus la o mare varietate de unități de lichior În tabel Figura prezintă caracteristicile a patru discuri magnetice În , aceste unități de un singur producător aveau un cost pe gigaoctet cuprins între de cenți și USD Pe piața mai largă, costurile variau de obicei între de cenți și USD per gigaoctet, în funcție de dimensiune, interfață și performanță În timp ce discurile vor continua să existe în viitorul previzibil, punctul de vedere este că modul în care blocurile sunt localizate după numere nu este constant În modelul sector-cănă-cilindru, se presupune că blocurile învecinate sunt pe aceeași cale, referință la bloc * Dispozitiv de stocare pe disc „Același cilindru, din cauza lipsei timpului de căutare, durează mai puțin și unele piste sunt mai aproape decât altele Baza împărțirii a fost creșterea nivelului interfețelor Interfețe „rezonabile” la nivel înalt, cum ar fi „ah ATA și SCSI necesită prezența unui microprocesor ca parte a discului, ceea ce duce la optimizarea performanței Vis Șase discuri magnetice cu diametre de la la , inci Discurile din imagine au mai mult de ani și, prin urmare, nu au capacitatea discurilor de astăzi de același diametru Totuși, această fotografie înfățișează cu exactitate dimensiunile lor fizice Cel mai lat disc DEC R conține patru platouri de inchi și este capabil să stocheze MB de informații A fost fabricat în Discul de inch a fost fabricat de Fuptsu în și stochează MB pe șase platouri Discul Micropohs RD are cinci platouri de , inchi și stochează MB IM are și cinci platouri, dar diametrul lor este de , inci Acest disc, scobit în , stochează MB TB de informații au fost stocate, rezultând o creștere a densității de aproape de ori disc, fabricat în , are două platouri de , inchi care conțin MB Cel mai mic disc din această fotografie este un Integral Acest disc a fost lansat în anul , are o placă cu un diametru de , inci și stochează MB de informații Pentru a accelera transferurile seriale, aceste interfețe de nivel înalt fac organizarea discurilor mai mult ca benzi decât dispozitive cu acces aleatoriu Blocurile logice sunt aranjate de-a lungul suprafeței sub forma unei serpentine într-un efort de a capta toate sectoarele înregistrate cu aceeași densitate de biți Prin urmare, blocurile consecutive pot fi pe piste diferite Un exemplu ar fi Interfață ATA (Advanced Technology Attachment) Un set de instrucțiuni popular în computerele personale (PC) utilizat ca standard pentru dispozitivele de intrare/ieșire Interfață SCSI (Small Computer Syitemi Interface) Set de instrucțiuni utilizat ca standard pentru dispozitivele I/O Capitolul Stocarea informațiilor și alte subiecte I/O prezentată în fig când luăm în considerare eroarea modelului popular sector-șină-cilindru Clarificare Aceste interfețe de nivel înalt permit adăugarea dispozitivelor cache la controlerele de disc pentru a oferi acces rapid la datele citite recent despre transferurile solicitate de procesor Acestea folosesc write-through și nu sunt actualizate în cazul erorilor de scriere și includ adesea algoritmi de prefatch care încearcă să anticipeze datele solicitate Controllerele folosesc, de asemenea, coada de comandă pentru a permite unității să decidă în ce ordine să le execute pentru a maximiza performanța, menținând în același timp comportamentul corect Desigur, astfel de capabilități fac dificilă evaluarea performanței unității și sporesc importanța alegerii unui volum de lucru atunci când se compară unitățile Tabelul c Caracteristicile a patru discuri magnetice produse de aceeași companie în Cele trei unități afișate în coloanele din stânga sunt pentru servere și desktop-uri iar unitatea din ultima coloană este concepută pentru laptopuri Vă rugăm să rețineți că că diametrul celui de-al treilea drive este de doar , inci, dar aparține categoriei de înalte performanțe! Dispozitivele cu cea mai mare fiabilitate și cei mai rapidi timpi de căutare Unitățile prezentate aici sunt echipate fie cu versiuni seriale ale interfeței SCSI (SAS), cu magistrala standard I/O pentru multe sisteme, fie cu versiunea serială a ATA (SATA), standardul I/O O magistrală pentru computere personale (viteze PCI) transferul de date de la dispozitivele cache este de - ori mai rapid decât vitezele de transfer de date de pe suprafața discului Costul mult mai mic pe gigabyte al unei unități SATA de , inci se datorează în principal prea mult concurența pe piața PC-urilor, deși diferența dintre indicatorii de performanță este numărul IOPS din cauza RPM mai mare și a timpului de căutare SAS - Există aceste unități au o speranță de viață de cinci ani Vă rugăm să rețineți că ratingul MTTF se bazează pe tensiunea nominală de alimentare și pe temperatura Durata de viață a unității poate fi redus semnificativ prin temperatura si vibratii, nementinute la nivelul de exploatare norme ataţionale Pentru mai multe informații despre aceste unități, vizitați site-ul web Seagate la www seagate cell Specificații Se aflate ST SS Seagate ST NS Seagate ST SS Seagate ST AS Diametrul discului, inci , , , , Capacitatea discului formatat GB Număr de suprafețe de disc, capete Viteza de rotație, rpm Dimensiunea memoriei cache internă a discului MB Stocare pe disc Specificații Seagate ST O SS Seagate ST NS Seagate ST SS Seagate ST AS •sheshni>> interfaţă Lățime de bandă SAS SATA YWWWit/s SAS, SATA ■ viteza de transfer de date MFODODL ȘI INLNOM r "zhm MB / s - - ■Limmal C*a timp (citire/scriere) ms , / , , / , , / , , / , JRVDnev guisk time ms , / , V / , , / , , / , Іfednnn time to failure (MTTF), ore la С la С la С — Rata anuală de eșec ■AFR) % , % , % , % — ■Cantitate minimă ■Yuntakton magnetic holo-INTERC suprafață disc IRM start-stop — ■ > ■Termen final, animal de companie " ; , , * , * , ; , Consum de energie Wota, inactiv' Standby W / /- / / / /- / / Pate, inch GB/W ; ; ; , Pret in , S $/Casa - , - , - ; - , - , - , - ; - Autotestare Care dintre următoarele afirmații este adevărată pentru unitățile de disc: Unitățile de , " efectuează mai multe IOPS decât unitățile de , " Unitățile de , inchi au adesea cel mai mare gigaocteți per watt de consum de energie Citirea secvențială a conținutului unui disc de capacitate mare durează câteva ore Citirea conținutului unui disc de capacitate mare folosind sectoare aleatorii, dar octeți durează câteva luni Capitolul Stocarea informațiilor și alte subiecte I/O Unități flash Mulți au încercat să inventeze o tehnologie care să înlocuiască discurile, dar au eșuat de multe ori: memoria CCD Memoria ADM și memoria holografică nu s-au ridicat niciodată la înălțimea așteptărilor În momentul în care noua tehnologie trebuia să fie livrată, discurile au suferit îmbunătățiri, în conformitate cu previziunile anterioare, prețurile lor scădeau semnificativ, iar produsul provocator își pierdea atractivitatea pe piață Primul concurent cel mai probabil a fost memoria flash Această memorie cu semiconductor este la fel de nevolatilă ca și discurile, dar densitatea sa este de - de ori mai mică decât cea a unui disc și este, de asemenea, mai mică, mai eficientă din punct de vedere energetic și mai rezistentă la șocuri La fel de importantă este piața largă care s-a deschis pentru memorie flash prin utilizarea acesteia în telefoane mobile, camere digitale și playere MP , precum și investiția în îmbunătățirea acesteia Recent, costul unui gigabyte de memorie flash a scăzut cu % pe an în Prețul unui gigabyte de memorie flash a fost de la la dolari, sau de - de ori mai mare decât cel al discurilor și de - ori mai mic decât cel al memoriei DRAM compară trei dispozitive bazate pe memoria flash Tabelul Caracteristicile naibii de dispozitive de stocare bazate pe memorie flash Pachetul de standarde CompactFIash a fost propus de Sandisk Corporation în pentru cardurile PCMCIA-ATA pentru computerele portabile PC Deoarece acest pachet urmează interfața ATA, imită interfața discului, inclusiv comenzi de căutare, piste logice etc Produsul RiDATA emulează interfața SATA a unei unități de , inchi Caracteristici Kingaton SecureDigital (SO) SD / GB Transand Tura CompactRash TS GCF RIDATA Solid State Di"k " SATA Capacitate media formatată GB Octeți pe sector Viteza de transfer de date (citire-scriere), MB/s / Consumul de energie în timpul funcționării / standby W , / , , / , , - Dimensiune înălțime * lățime * lungime, inci , x , " , " , * , , " , " , Greutate g , , ore MTBF > > > GB/buză inch, GB/ t , ; Cel mai bun preț (și ) S - - - Unități flash În ciuda costului pe gigaoctet mai mare decât discurile, memoria flash este populară pe dispozitivele mobile, în parte pentru că are o ■bump mai mică Ca urmare, hard disk-urile de inch au dispărut de pe unele piețe încorporate De exemplu, în , MP player-ul Apple iPod Shuffle s-a vândut cu USD și conținea GB de memorie, în timp ce cel mai mic disc conținea GB de memorie și a fost vândut pentru aproape cel mai scump player MP Memoria flash este un dispozitiv de memorie programabil doar pentru citire, șters electric ESPNZU (emory ■emory programabilă doar în citire, ștersabilă electronic, EEPROM) Prima memorie flash, numită NOR flash, datorită asemănării „amintirii zilelor celulei” cu elementul NOR standard era un concurent direct cu alte dispozitive EEPROM și era adresabil în mod arbitrar, ca orice altă memorie Câțiva ani mai târziu, memoria flash NAND a oferit o densitate mai mare de înregistrare dar această memorie a putut fi citită și scrisă doar în blocuri întregi, deoarece a eliminat circuitele electrice necesare pentru accesul aleatoriu ■ Gigabytes de memorie NAND flash este ■■ mult mai ieftin și mult mai popular decât NOR flash; toate dispozitivele prezentate în Tabelul utilizați memoria flash NAND În tabel compară principalii parametri ai memoriei flash NOR și NAND Tabelul Comparație dintre caracteristicile blițului NOR și NANO începând cu Aceste dispozitive pot citi octeți și cuvinte pe biți - Caracteristicile blițului NOR flash NANO Aplicație comună BlOS Memory USB Flash Drive Dimensiunea minimă de acces, octeți Timp de citire, ms , Timp de înregistrare, ms , pentru ștergere ♦ Debitul de citire, MB,'s Lățimea de bandă de scriere, MB/s , Amortizarea înregistrărilor per celulă de la la Cel mai bun preț/GB (pentru ) USD Spre deosebire de discuri și DRAM, dar ca și alte produse EEPROM, biții de memorie flash sunt supuși uzurii (vezi Tabelul ) Pentru a depăși aceste limitări, multe produse flash NAND includ un controler pentru a răspândi zona de scriere prin remaparea blocurilor care au fost scrise de mai multe ori și înlocuirea lor cu blocuri mai puțin frecvent utilizate Această tehnologie se numește nivelare de uzură Este puțin probabil ca playerele MP sau unitățile flash să depășească limitele privind numărul de scrieri în memoria flash Astfel de controlere de somn Capitolul Stocare și alte subiecte legate de I/O slăbesc performanța potențială a memoriei flash, dar sunt necesare atunci când software-ul de nivel înalt nu gestionează nivelarea uzurii blocurilor Dar aceste controlere pot crește randamentul produselor utile fără a afișa acele celule de memorie care au defecte de fabricație Limitările ciclului de scriere sunt unul dintre motivele pentru care memoria flash nu este utilizată pe scară largă în laptopuri și servere Cu toate acestea, în , primele laptop-uri cu memorie flash în loc de hard disk au fost vândute la o reducere semnificativă pentru a oferi timpi de pornire mai rapizi, amprentă mai mică și o durată de viață mai lungă a bateriei După cum se arată în tabel Există și dispozitive de memorie flash realizate sub forma unui disc standard Dacă combinați ambele idei de unități, atunci hard disk-urile hibride vor include, de exemplu, un gigabyte de memorie flash pentru a face laptopurile să pornească mai rapid și pentru a economisi energie, permițând unităților să fie oprite mai des În următorii ani, memoria flash va concura cu succes cu hard disk-urile din multe dispozitive auto-alimentate Pe măsură ce capacitatea crește și costul pe gigaoctet continuă să scadă, va fi interesant de văzut dacă o memorie flash mai arbitrară și mai eficientă din punct de vedere energetic poate fi folosită și pe desktop-uri și servere Autotestare Care dintre următoarele afirmații este adevărată pentru memoria flash: La fel ca DRAM, memoria flash este un dispozitiv de stocare semiconductor Asemenea discurilor, memoria flash nu pierde informații atunci când alimentarea este oprită Timpul de acces la citirea memoriei flash NOR este același ca DRAM Lățimea de bandă de citire a blițului NAND este aceeași cu discul Conectarea procesoarelor, memoriei și dispozitivelor I/O Într-un sistem informatic, diferitele subsisteme trebuie să aibă interfețe reciproce De exemplu, memoria și un procesor trebuie conectate la fel ca un procesor și dispozitive I/O Timp de mulți ani, această comunicare s-a făcut folosind o magistrală O magistrală este un canal obișnuit de comunicație care utilizează un singur set de fire pentru a conecta mai multe subsisteme Cele două avantaje principale ale unei organizații de magistrală sunt versatilitatea și costul redus Prin definirea unei scheme unice de comunicație, pot fi adăugate cu ușurință noi dispozitive, iar perifericele pot fi chiar mutat între sisteme informatice folosind același și același tip de anvelopă În plus, barele colectoare sunt rentabile deoarece același set de conductori este partajat în mai multe moduri simultan Conectarea procesoarelor, a memoriei și a dispozitivelor I/O Principalul dezavantaj al unui autobuz este că va crea o conexiune îngustă ■ who care poate limita lățimea de bandă maximă I/O Când I/O trebuie să treacă printr-o singură magistrală, lățimea de bandă a acelei magistrale limitează lățimea de bandă maximă de ieșire a codului Dezvoltarea unui sistem de autobuze capabil să răspundă nevoilor focssorului și, de asemenea, conectați un număr mare de dispozitive I/O la mașină este o sarcină foarte dificilă Autobuzele sunt împărțite în mod tradițional în magistrale de memorie procesor și magistrale de ieșire ttoda Magistralele procesor-memorie sunt de lungime scurtă pentru a preveni ratele mari de transfer de date și sunt în concordanță cu sistemul de memorie pentru a oferi un debit maxim de-a lungul rutei memorie-pro-jssor În schimb, magistralele I/O pot fi mai lungi, au o varietate mai mare de tipuri de dispozitive conectate la ele și, adesea, funcționează la o gamă largă de lățimi de bandă a dispozitivului De obicei, magistralele I/O nu au o interfață directă cu memoria, dar folosesc magistrala de memorie procesor sau magistrala de backplane pentru a se conecta la memorie specificații Un motiv pentru dificultatea dezvoltării anvelopelor este că că viteza maximă a magistralei este în mare măsură limitată de factori fizici: lungimea magistralei și numărul de dispozitive Aceste limitări fizice împiedică magistrala să ruleze la viteze arbitrare În plus, proiectarea magistralei este complicată de necesitatea de a suporta o gamă largă de dispozitive cu latență și debit foarte diferite Datorită dificultății de inițiere a transmisiei de date de mare viteză pe mai mulți conductori paraleli, cauzată de declinarea și reflexiile semnalului, industria a trecut de la liniile de magistrală paralele la liniile de magistrală de mare viteză creșterea conexiunilor seriale punct la punct cu comutatoare Prin urmare, aceste rețele I/O au înlocuit în mare măsură magistralele I/O în sistemele noastre Drept urmare, în această ediție, această secțiune a trebuit să fie revizuită pentru a sublinia sarcina generală de conectare a dispozitivelor I/O, procesoarelor și memoriei, mai degrabă decât să se concentreze doar pe magistrale Probleme generale de conectare Luați în considerare o tranzacție I/O normală O tranzacție are două părți: trimiterea unei adrese și primirea sau trimiterea de date Tranzacțiile cu autobuzul sunt de obicei definite de ceea ce fac cu memoria O tranzacție citită transferă date din memorie (sau Procesor-magistrală de memorie O magistrală scurtă, de obicei una de mare viteză, care conectează procesorul și memoria coordonat cu sistemul de memorie pentru a obține un debit maxim pe ruta -memorie -procesor* șină de montare O magistrală concepută pentru a permite procesoarelor, memoriei și dispozitivelor I/O să coexiste pe o singură magistrală O secvență de operațiuni asociate cu un schimb de date care include o solicitare și poate include un răspuns, fiecare dintre acestea putând transporta date O tranzacție este inițiată printr-o singură cerere și poate necesita mai multe operațiuni separate legate de magistrală Capitolul Stocarea informațiilor și a altor subiecte legate de input-output procesor sau dispozitiv I/O), iar o tranzacție de scriere scrie date în memorie Evident, această terminologie poate induce în eroare Pentru a evita acest lucru, vom încerca să folosim conceptele de intrare și ieșire, întotdeauna definite din punctul de vedere al procesorului: operația de intrare realizează intrarea pe dispozitiv în memorie, unde procesorul le poate citi, iar operația de ieșire este responsabilă pentru ieșirea datelor către dispozitivul de memorie, unde procesorul le scrie Conexiunile I/O servesc ca o modalitate de a extinde aparatul și de a conecta noi periferice Pentru a facilita aceste conexiuni, industria calculatoarelor a dezvoltat mai multe standarde, care servesc ca specificații tehnice pentru producătorii de computere, precum și pentru producătorii de dispozitive periferice Standardul garantează proiectantului de computer că periferice vor fi disponibile pentru noua mașină și designerului de periferice pe care utilizatorii le pot conecta la noul hardware Tabelul - rezumă caracteristicile cheie ale celor cinci standarde I/O populare Fircwire, USB PCI Express (PCIe) Serial ATA (SATA) și Serial Attachcd SCSI (SAS) Sunt folosite pentru a conecta diverse dispozitive, de la tastaturi la camere digitale și unități, la un computer desktop Autobuzele tradiționale sunt sincrone, ceea ce înseamnă că magistrala este condusă de un generator de ceas și utilizează un protocol dependent de ceas fix pentru comunicare De exemplu, un protocol poate fi utilizat pentru a efectua citirea memoriei, în funcție de care în timpul Sincron*bus O magistrală care are un generator de ceas în scopuri de control și utilizează un protocol de comunicație fix, dependent de impulsurile de ceas La primul ciclu de ceas, adresa este trimisă și comanda de citire este trimisă, iar liniile de control sunt folosite pentru a indica tipul de solicitare Apoi, în timpul celui de-al cincilea ciclu de ceas, un răspuns cu cuvânt secret poate fi solicitat din memorie Acest tip de protocol poate fi implementat cu ușurință ca o mașină de stat mică Deoarece protocolul este deja predefinit și implică doar un număr mic de operații logice, magistrala poate rula cu viteză mare, iar unitatea logică de interfață poate fi mică Dar vârfurile sincrone au două dezavantaje majore În primul rând, fiecare dispozitiv din autobuz trebuie să funcționeze la aceeași viteză de ceas În al doilea rând, din cauza problemelor de distorsiune a ceasului, autobuzele sincrone nu pot fi lungi dacă au un nivel ridicat Comunicare asincronă Utilizează un protocol de strângere de mână în loc de ceas pentru coordonare Poate găzdui o gamă largă de dispozitive care au viteze reduse de date Protocol de comunicare O serie de pași folosiți pentru „coordonarea transmisiilor printr-o magistrală asincronă, în care expeditorul și receptorul trec la pasul următor numai atunci când ambele părți sunt de acord - finalizarea pasului curent viteză Prezența acestor probleme a condus la schimbul de date asincron, care nu este condus de impulsuri de ceas Datorită absenței impulsurilor de ceas, comunicarea asincronă poate găzdui o gamă largă de dispozitive, iar magistrala poate avea o lungime care nu este asociată cu distorsiunea ceasului sau cu probleme de sincronizare Date în tabel standardele se referă la schimbul de date asincron Conectarea procesoarelor, a memoriei și a dispozitivelor I/O Un protocol de strângere de mână este utilizat pentru a coordona transferul de date între un emițător și un receptor pe magistralele asin-flare Acest protocol constă dintr-o serie de pași efectuati de emițător și receptor, trecând la pasul următor numai dacă ambele părți sunt de acord Protocolul este implementat folosind un set suplimentar de linii de control ■blitz Principalele caracteristici ale celor cinci standarde dominante ■■ieşire Coloanele de utilizare preconizată arată dacă standardul este conceput pentru a utiliza cabluri externe computerului sau numai pentru a utiliza cabluri scurte sau conductori în interiorul computerului pe plăci de circuite imprimate, PCIe poate suporta citirea și scrierea simultană, astfel încât în unele publicații debitul pe canal (Iape ) este dublată pe baza ipotezei unei împărțiri a debitului de citire/scriere de - % Performanță FireWire yes-inference este adevărată? Dacă doriți să obțineți cea mai mică latență pentru o operațiune I/O în raport cu un singur dispozitiv I/O, metodele ar trebui să fie în următoarea ordine: interogare, folosind DM A și folosind controlul întreruperilor În ceea ce privește cea mai mică utilizare a CPU per dispozitiv I/O, metodele ar trebui să fie în următoarea ordine: utilizați DMA, utilizați controlul întreruperilor și sondajul Interfață hardware și software Cu ce ar trebui să lucreze DM A în sistemele cu memorie virtuală - cu adrese virtuale sau fizice? Problema evidentă cu adresele virtuale este că blocul DMA va trebui să traducă adresele virtuale în cele fizice Principala problemă cu utilizarea adreselor fizice într-un transfer DMA este că nu puteți depăși pur și simplu granițele paginilor Dacă o solicitare I/O depășește granița unei pagini, atunci locația de memorie la care a fost efectuat transferul poate să nu mențină integritatea în memoria virtuală Prin urmare, atunci când utilizați adrese fizice, trebuie să restricționați toate transferurile DMA într-o singură pagină Metoda care permite sistemului să inițieze transferuri DM A care traversează granițele paginii este să pentru a forța DM A să lucreze cu adrese virtuale Într-un astfel de sistem, blocul DMA are un număr mic de intrări de mapare furnizarea unei mapari a adreselor virtuale la cele fizice pentru transmisie Sistemul de operare oferă o mapare atunci când este inițiată I/O Cu această mapare, blocul DM A nu trebuie să-și facă griji cu privire la locația paginii virtuale implicate în transfer O altă tehnologie pentru sistemul de operare este împărțirea transmisiei DM A într-o serie de transmisii, fiecare dintre acestea fiind plasată într-un interior separat Capitolul Stocarea informațiilor și a altor subiecte I/O Pagina fizică Transferurile sunt apoi înlănțuite și predate unui procesor I/O sau DMA inteligent care va finaliza întreaga secvență de transfer, sau sistemul de operare poate emite cereri de transfer individuale Indiferent de metoda utilizată, sistemul de operare trebuie să orchestreze interacțiunea, astfel încât paginile să nu fie redate în timp ce pagina este încă în uz în transferul DMA • pe Interfață hardware și software Problemele de integritate a datelor I/O pot fi eliminate folosind una dintre cele trei tehnologii principale În primul rând, puteți face toate acțiunile I/O prin memoria cache Apoi, operațiunile de citire vor fi garantate pentru a obține cea mai recentă valoare, iar operațiunile de scriere vor actualiza orice date din cache sunt rareori necesare pentru utilizare imediată și pot înlocui datele utile necesare programului care se execută În al doilea rând, puteți forța sistemul de operare să renunțe selectiv la datele din cache pe I/O de citire sau să forțați scrierile în așteptare pe I/O de scriere (denumită adesea cache purshing - cache (lushing) Această abordare necesită puțin suport hardware și ar probabil să fie mai eficientă dacă această funcție ar putea fi realizată ușor și în mod natural de către software Deoarece această spălare a unor porțiuni mari din cache este necesară doar pentru accesările DM A, va avea loc relativ rar În al treilea rând, poate fi furnizat un mecanism hardware pentru spălarea selectivă (sau invalidare) ) din Cache Elements Invalidarea hardware pentru a asigura integritatea cache-ului este adesea folosită în sistemele cu microprocesoare, iar aceeași tehnică poate fi utilizată pentru I/O, un subiect tratat mai detaliat în Capitolul Estimări de performanță I/O: exemple de disc și sisteme de fișiere Cum pot fi comparate sistemele I/O? Aceasta este o întrebare dificilă, deoarece performanța I/O depinde de multe aspecte ale sistemului, iar aplicațiile diferite acordă prioritate diferitelor aspecte ale sistemului I/O În plus, pot exista compromisuri complexe între timpul de răspuns și debitul în proiectare care fac este imposibil de evaluat un singur aspect De exemplu, procesarea unei cereri cât mai curând posibil va minimiza, de obicei, timpul de răspuns, în timp ce obiectivele de performanță pentru agilitate sunt atinse Evaluarea performanței I/O r în cazul în care încercăm să procesăm împreună cererile aferente Se pare că putem crește debitul atunci când lucrăm cu disc •ute și solicitări de grupare care accesează acele locuri care sunt situate aproape unele de altele Dar această abordare va crește timpul •tclick pentru unele solicitări, ceea ce poate duce la o răspândire mare în Acest indicator Deși debitul va crește, unele benchmark-uri indică timpul maxim* de răspuns pentru orice interogare, dezvăluind potențiala pro-zema unor astfel de optimizări Această secțiune va oferi câteva exemple de evaluări oferite de FL pentru determinarea performanței sistemelor de stocare a informațiilor Aceste sarcini conflictuale sunt afectate de diferite proprietăți ale sistemului, inclusiv tehnologia discului, conectivitatea discului, sistemul de memorie, procesorul și sistemul de fișiere furnizat de sistemul de operare I Înainte de a lua în considerare aceste sarcini de control, este necesar să se înțeleagă terminologia și unitățile de măsură Performanța sistemelor I/O depinde de viteza cu care sistemul transferă date Rata datelor depinde de frecvența ceasului, care este de obicei dată în gigaherți (GHz) - cicluri IO* ■ secunda Rata de transfer este de obicei specificată în gigaocteți pe secundă (GB/s) În sistemele I/O, gigaocteții (GB) sunt măsurați folosind baza (adică GB - ' - de octeți), spre deosebire de RAM, care utilizează baza (adică GB - " - octeți) Această diferență necesită conversia sistemelor de numere cu bază ( K - ) ■ ( K = ) deoarece multe accesări I/O implică blocuri de date având o dimensiune care este un multiplu al puterilor lui Pentru a nu complica toate exemplele noastre printr-o conversie exactă a uneia dintre cele două dimensiuni, am marcat aici diferența și am afirmat faptul că tratând cele două dimensiuni ca având aceleași unități ar fi o mică greșeală Această eroare va fi ilustrată în secțiunea b unsprezece Sarcini de control legate de procesarea tranzacțiilor Aplicații legate de procesarea tranzacțiilor (TR) includ atât cerințele privind timpul de răspuns, cât și estimările de performanță bazate pe debit În afară de asta, majoritatea solicitărilor I/O implică cantități mici de date Prin urmare, aplicațiile TP sunt interesate în primul rând de viteza I/O, măsurată în număr de accesări pe secundă, spre deosebire de viteza de transfer de date, măsurată în octeți de date pe secundă Aplicațiile TR sunt de obicei asociate cu Procesarea tranzacției Un tip de aplicație care efectuează operațiuni mici, scurte (numite tranzacții), care necesită de obicei atât I/O, cât și calcul Aplicațiile de procesare a tranzacțiilor au de obicei ambele cerințe de timp de răspuns și debitul tranzacțiilor Viteza I/O Performanță măsurată prin numărul de operațiuni I/O pe unitatea de timp, cum ar fi citirile pe secundă Rata de transfer Debitul măsurat în octeți pe unitatea de timp, cum ar fi gigaocteți pe secundă Capitolul Stocarea informațiilor și alte subiecte I/O creta baze de date mari, într-un sistem care trebuie să îndeplinească anumite cerințe pentru timpul de răspuns și să poată gestiona cu precizie anumite tipuri de defecțiuni Aceste aplicații sunt foarte importante, iar nerespectarea cerințelor pentru ele poate duce la pierderi semnificative De exemplu, băncile folosesc de obicei sisteme de procesare a tranzacțiilor, deoarece se concentrează pe o gamă largă de caracteristici Aceasta include garanții împotriva pierderii tranzacțiilor, procesarea rapidă a tranzacțiilor și reducerea la minimum a costului procesării fiecărei tranzacții Deși cerința absolută pentru astfel de sisteme este de a garanta siguranța în cazul defecțiunilor, timpul de răspuns și debitul sunt, de asemenea, factori importanți în crearea unor sisteme rentabile Există mai multe sarcini de control al procesării tranzacțiilor Un set binecunoscut de repere este seria dezvoltată de Transaction Processing Council (TPC) TPC-C, creat inițial în , simulează un mediu de interogare complex TPC-H simulează suport pentru decizii arbitrare - interogările nu sunt legate între ele, iar informațiile despre interogări recente nu pot fi folosite pentru a optimiza interogările viitoare; ca urmare, timpul de execuție a interogărilor poate fi foarte lung Setul TPC-W este o sarcină de control al tranzacțiilor pe Internet care imită munca unui server web care procesează tranzacții comerciale Utilizează un sistem de baze de date, precum și software-ul serverului web de bază Suita TPC-App include sarcini de control pentru serverul de aplicații și serviciile web Cel mai recent set TPC-E simulează volumul de lucru de procesare a tranzacțiilor unei firme de brokeraj O descriere a sarcinilor de control TPC este oferită pe site-ul web www tpc org Toate benchmark-urile TPC măsoară performanța în tranzacții pe secundă Acestea includ, de asemenea, cerințe de timp de răspuns, astfel încât performanța legată de lățimea de bandă este evaluată numai atunci când sunt îndeplinite constrângerile de timp de răspuns Pentru a modela un sistem real, ratele de tranzacție mai mari sunt asociate și cu sistemele mai mari, atât în ceea ce privește numărul de utilizatori, cât și în ceea ce privește dimensiunea bazei de date la care se aplică tranzacțiile De aceea, capacitatea de stocare trebuie să se potrivească cu performanța În cele din urmă, pentru a permite comparații precise preț-performanță, costul sistemului trebuie de asemenea inclus în sistemul de evaluare comparativă Sistemul de fișiere și sarcinile de control I/O prin Internet În plus față de benchmark-urile de performanță ale procesorului, SPEC oferă, de asemenea, File Server Performance Benchmarks (SPECSFS) și Web Server Performance Benchmarks (SPECWeb) SPECSFS este o sarcină de testare pentru evaluarea performanței unui sistem de fișiere de rețea - NFS (Nctwork File Syslcm) folosind un script de interogare Dezvoltarea sistemului I/O □la serverul de fișiere; testează performanța sistemului I/O inclusiv I/O pe disc și rețea, precum și performanța procesorului Sarcina de testare SPECSFS este orientată spre estimarea debitului, dar luând în considerare importanța cerințelor de timp de răspuns Sarcina de testare SPECWeh este concepută pentru a evalua performanța unui server web și simulează munca mai multor clienți care solicită atât pagini statice, cât și dinamice de la server, precum și clienții care trimit date către server (vezi Capitolul ) Cele mai recente criterii de referință SPEC au ca scop estimarea consumului de energie SPECPower Benchmark estimează consumul de energie și caracteristicile de performanță ale serverelor mici Sun a introdus recent filebench, un mediu de evaluare comparativă pentru evaluarea performanței sistemului de fișiere În loc de o sarcină de lucru standard, mediul oferă un limbaj care vă permite să descrieți volumul de lucru necesar pentru sistemul dvs de fișiere Dar include și exemple de încărcături de lucru ale sistemului de fișiere concepute pentru a imita utilizările comune ale sistemului de fișiere Autotestare Sunt adevărate sau false următoarele afirmații? Spre deosebire de sarcinile de control pentru evaluarea performanței procesorului, sarcinile de control I/O: ) concentrați-vă pe debit, nu pe latență; ) poate necesita scalarea dimensiunii setului de date sau a numărului de utilizatori pentru a atinge etapele de performanță; ) raportează adesea costul realizării performanței Dezvoltarea sistemelor I/O Există două tipuri principale de cerințe tehnice cu care se confruntă dezvoltatorii de sisteme I/O: constrângeri de latență și constrângeri de debit În ambele cazuri, proiectarea și estimările sunt influențate de cunoașterea modelului de trafic Constrângerile de latență includ garanții că latența finalizării unei operațiuni I/O este limitată la o anumită sumă Într-un caz simplu, sistemul poate fi inactiv și proiectantul trebuie să se asigure că sunt îndeplinite anumite limite de latență, fie pentru că sunt critice pentru aplicație, fie pentru că aplicația trebuie să primească o anumită întreținere garantată pentru a preveni apariția erorilor De asemenea, determinarea latenței pe un sistem descărcat este relativ ușoară, deoarece implică urmărirea căilor I/O și însumarea valorilor individuale ale latenței Capitolul Stocarea informațiilor și alte subiecte I/O Determinarea latenței medii (sau distribuției latenței) sub sarcină este mult mai dificilă Astfel de probleme sunt rezolvate fie prin teoria cozilor de așteptare (unde comportamentul solicitărilor de încărcare de lucru și timpii de serviciu I/O pot fi aproximați folosind distribuții simple), fie prin simulare (sub constelații complexe de I/O) Ambele subiecte sunt în afara domeniului de aplicare al acestui text O altă provocare comună cu care se confruntă dezvoltatorii este proiectarea unui sistem I/O care îndeplinește un set de constrângeri de lățime de bandă pentru o anumită sarcină de lucru În plus, un sistem I/O parțial configurat poate fi predat dezvoltatorului și însărcinat cu echilibrarea sistemului pentru a menține lățimea de bandă maximă realizabilă dictată de partea preconfigurată a sistemului Această ultimă sarcină de construcție este o versiune simplificată a primei sarcini La dezvoltarea unor astfel de sisteme se folosesc următoarele abordări generale; Căutați în sistemul I/O cea mai slabă legătură, care este o componentă a căii I/O care impune restricții asupra designului În funcție de volumul de lucru, această componentă poate fi oriunde, inclusiv procesoare, sistem de memorie, controlere I/O sau dispozitive Locația celei mai slabe verigi poate fi dictată atât de sarcina de lucru, cât și de constrângerile de configurare Configurați această componentă pentru a suporta lățimea de bandă necesară Determinați cerințele pentru restul sistemului și configurați-l pentru a suporta acest debit Cel mai simplu mod de a învăța această tehnică este cu exemple O analiză simplă a sistemului I/O al serverului Sun Firex arătând funcționarea acestei tehnici se va face în Secțiunea Paralelism și I/O: matrice redundante de discuri ieftine Legea lui Amdahl și Capitolul au vorbit despre cât de imprudent este să neglijezi I/O în revoluția de calcul paralelă de astăzi Acest lucru poate fi ilustrat cu un exemplu foarte bun Exercitiul Impactul I/O asupra performanței sistemului Să presupunem că avem o sarcină de control care durează în total de secunde pentru a se finaliza, din care de secunde este timpul CPU, iar restul este I/O Să presupunem că numărul de procesoare se dublează la fiecare Paralelism și matrice de discuri redundante I/O cu cost redus un an, dar viteza rămâne aceeași, iar timpul I/O nu se îmbunătățește Cât de repede va fi implementat programul nostru în șase ani? Se știe că I Obyaee time - „răgetul procesorului central * * urlă evsaa vmvoda - • Timp I/O - Vai I/O • secunde Noile durate de rulare ale CPU și timpul total calculat rezultat sunt prezentate în tabelul următor După n ani Timp central o lroessor, s Timp de intrare ieșire, s Timp total Timp de intrare de ieșire % s / - s IV / - s / " s Îmbunătățirea performanței procesorului după șase ani este t II • Și îmbunătățirea generală a timpului este doar / M • Iar ponderea timpului de intrare-ieșire a crescut de la % la % din timpul total Prin urmare, trebuie să vină revoluția calculului paralel și sistemele I/O, de asemenea cum a intrat în calcul sau efortul depus pentru paralelizare poate fi irosit dacă programele efectuează operațiunile I/O de care au nevoie Creșterea performanței I/O a fost motivația inițială pentru crearea matricelor de discuri La sfârșitul anilor , discuri mari și scumpe, cum ar fi unul dintre cele mai mari prezentate în Fig Argumentul a fost că prin înlocuirea mai multor discuri mari cu multe discuri mici, performanța poate fi îmbunătățită, deoarece în acest caz vor exista mai multe capete de citire Această modificare este potrivită pentru mai multe procesoare, deoarece având mai multe capete de citire/scriere înseamnă că sistemul de stocare poate suporta multe mai multe accesări independente, precum și transferuri lungi care au date împrăștiate pe mai multe discuri Adică, puteți obține atât mai multe IOPS, cât și rate de transfer de date mai rapide Pe lângă performanța ridicată, puteți obține avantaje de cost, putere și spațiu, deoarece unitățile mai mici tind să aibă o eficiență mai mare pe gigabyte decât unitățile mai mari Ca argument negativ, s-a susținut că matricele de discuri pot reduce fiabilitatea Aceste unități mici și ieftine au mai multe Capitolul Stocarea informațiilor și a altor subiecte I/O niveluri MTTF mai mici decât unitățile mari, dar mai important, prin înlocuirea unei unități cu, să zicem, cincizeci de unități mici, rata de eșec crește de cel puțin de ori! Soluția a fost adăugarea de redundanță, astfel încât sistemul să poată face față defecțiunilor discului fără a pierde informații Cu multe unități mici, costul redundanței suplimentare pentru o disponibilitate mai mare este scăzut în raport cu costul soluțiilor care utilizează un număr mic de unități mari Astfel, reziliența a fost mai accesibilă cu o serie redundantă de unități cu costuri reduse Această observație i-a inspirat numele: matrice redundante de discuri ieftine RAID pe scurt Privind retrospectiv însă, invenția lor a fost motivată de performanță Fiabilitatea este principalul motiv pentru care matricele RAI D sunt atât de populare cost și performanță Discuri de date Redundante» discuri de control YAYU (Fără redundanță) Folosit de multe companii RAID (Copie în oglindă' EMC HPfTandem), IBM RAID (Detectarea erorilor și corectarea codului) Nefolosit RAID (Paritate intercalată cu biți) Abordări ale memoriei RAID (Paritate cu intercalarea blocurilor! Folosit în rețele RAID (Paritate cu intercalarea comună a blocurilor) Folosit pe scară largă RAID (Redundanță P ♦ Q) Câștigarea popularității Orez la Un exemplu de matrice RAID cu patru discuri de date, care arată discuri de control suplimentare pentru fiecare nivel de JAR și companiile care utilizează fiecare nivel Figura b și explică diferența dintre RAID RAID și RAID Paralelism și matrice de discuri redundante I/O cu cost redus De ce nivel de fiabilitate ai nevoie? Aveți nevoie de informații suplimentare ■pentru detectarea defecțiunilor? Ordinea organizării datelor și informațiile suplimentare de verificare de pe aceste discuri joacă vreun rol? Articolul care sugera titlul oferă un răspuns extins la aceste întrebări, începând cu cea mai simplă, dar cea mai costisitoare soluție Figura prezintă evoluția matricelor RAID și costul lor aproximativ în ceea ce privește numărul de discuri de control suplimentare Pentru a urmări dezvoltarea RA D-massins, autorii au numerotat etapele acestei dezvoltări, iar aceste vomere sunt încă folosite astăzi Fără redundanță (RAID O) Simpla împrăștiere a datelor pe mai multe discuri, numită striping, forțează automat accesul la mai multe discuri Sparing Lenns pe un set de discuri face ca întreaga colecție să apară pentru partajarea software-ului ca un singur disc mare, facilitând gestionarea stocării în baie De asemenea, îmbunătățește performanța acceselor mari, deoarece mai multe discuri pot rula în același timp De exemplu, sistemele de editare video adesea își trimit datele și nu le pasă prea mult de toleranța la erori în comparație cu bazele de date Numele RAID este o denumire greșită, deoarece nu există redundanță în această matrice Dar nivelurile matricelor RAID sunt adesea specificate de setările operatorului ii i, iar RAI D este adesea prezent ca una dintre opțiuni Acest lucru explică numele comun larg |>ac al RAID Oglindire (RAID ) Această schemă tradițională de toleranță la eșec de disc se numește oglindire sau ecranare și folosește de două ori mai multe discuri decât RAID Odată ce datele sunt scrise pe un disc, aceleași date sunt scrise și pe un disc redundant, astfel încât să existe întotdeauna două copii ale informațiilor Dacă un disc eșuează, sistemul merge pur și simplu la „oglindă” și îi citește conținutul pentru a obține informațiile dorite Mirroring-ul este cea mai scumpă soluție RAID pentru că pentru el cel mai mare număr de discuri Detectarea erorilor și codul corector (RAID ) Matricea RAID adoptă cel mai adesea schema de detectare și corectare a erorilor Matrice redundante de discuri ieftine (RAID) Organizarea discurilor folosind mai multe discuri mici și ieftine pentru a îmbunătăți performanța și fiabilitatea alternanţă Alocarea de blocuri consecutive logic pe diferite discuri pentru a obține performanțe mai mari decât aceea ceea ce este furnizat de un disc separat Oglindire Scrieți aceleași date pe mai multe discuri pentru a îmbunătăți disponibilitatea datelor Capitolul Stocarea informațiilor și alte subiecte I/O folosit pentru dispozitivele de memorie Deoarece RAID nu mai este utilizat astăzi, nu este descris aici Paritate între biți (RAID ) Costul unei disponibilitati mai mari poate fi redus cu /p unde n este numărul de discuri din grupul de protecție În loc să stocați o copie completă și date inițiale pentru fiecare disc, trebuie să adăugați doar cantitatea strict necesară de informații redundante pentru a recupera datele pierdute în timpul unei defecțiuni Operațiile de citire sau scriere implică toate discurile din grup și încă un disc care stochează informații de paritate în caz de defecțiune O matrice RAID este utilă în aplicațiile cu seturi mari de date, cum ar fi multimedia și unele programe științifice Paritatea este o astfel de schemă Cititorii nu sunt familiarizați cu paritatea se poate gândi la un disc redundant ca stocând suma tuturor datelor de pe alte discuri Când un disc eșuează, toate datele de pe discurile sănătoase sunt scăzute din datele de pe disc de paritate; informaţia rămasă trebuie să fie identică cu cea pierdută Paritatea este doar suma modulo doi Spre deosebire de RAID t trebuie citite mai multe discuri pentru a determina datele pierdute Presupunerea de bază din spatele acestei tehnologii este că există un compromis acceptabil între timpi mai lungi de failover și costuri mai mici de stocare pentru datele redundante Block Interleaved Parity (RAID ) RAID utilizează același raport de unități de date și unități de paritate ca RAID , dar datele sunt accesate diferit Informațiile de paritate sunt stocate în blocuri și asociate cu un set de blocuri de date În RAID , fiecare acces este direcționat către toate discurile Dar unele aplicații preferă accesele mici, permițând accesul independent în paralel Acesta este scopul creării de matrice de niveluri RAID de la la b Deoarece informațiile de detectare a erorilor sunt verificate pentru a determina corectitudinea datelor la citirea fiecărui sector, astfel de „mic * Grupul de apărare Un grup de discuri de date sau blocuri care au în comun un disc sau un bloc de control comun citirile" de pe fiecare disc pot apărea independent, deoarece cel puțin un sector este disponibil Într-un mediu RAID, un acces mic se aplică doar unei unități dintr-un grup de protecție, în timp ce un acces mare se aplică tuturor unităților din acel grup La înregistrare, lucrurile stau diferit Se poate părea că fiecare scriere mică va necesita acces la toate celelalte discuri pentru a citi toate informațiile necesare pentru un nou calcul de paritate, ca în partea stângă a Fig „Scriere mică” ar necesita citirea datelor vechi și a vechii valori de paritate, adăugarea noilor informații Paralelism și I/O: rețele redundante de discuri ieftine și apoi va necesita ca noua paritate să fie scrisă pe discul redundant și noile date pe discul de date Orez Legătură de scriere mică ■ Actualizări ale unei matrice RAID în comparație cu aceeași actualizare într-o matrice RAID Această optimizare pentru scrieri „mari” reduce numărul de accesări la disc, precum și numărul de discuri implicate Această cifră presupune patru blocuri de date și un bloc de paritate Calculul normal de paritate în matricea RAID din partea stângă a figurii necesită citirea blocurilor D și D înainte de adăugarea blocului ' pentru a calcula un nou semn de paritate P' (Nu este nimic surprinzător aici, noile date D ' provin direct de la CPU, deci discurile nu sunt implicate în citirea lor) Reducerea operațiunilor în matricea RA prezentată în partea dreaptă a figurii implică citirea vechea valoare , care este comparată cu noul -'folosind D ' pentru a afla ce biți s-au schimbat Apoi se citește vechea valoare a parității P După aceea, biții corespunzători sunt modificați pentru a obține valoarea lui P' Logica XOR funcția este cea mai bună pentru aceasta În acest exemplu, trei discuri (Dl, D D ) și ziua scrierii pe discuri (D ' P'), în care a fost implicată greutatea discurilor, sunt înlocuite cu două discuri citește (D P) și două scrieri pe disc ( ' P'> în doar două discuri în uz Creșterea dimensiunii grupului de paritate duce la economii în mai puține operațiuni, aceeași reducere este utilizată într-o matrice RAID Perspectiva cheie care a făcut posibilă reducerea costurilor a fost aceea acea paritate este pur și simplu suma datelor; dacă ține evidența biților modificați atunci când scrii informații noi, atunci trebuie doar să schimbi biții corespunzători pe discul de paritate Reducerea numărului de operații este prezentată în partea dreaptă a figurii Trebuie să citiți datele vechi de pe discul pe care trebuie să le scrieți, să le comparați cu noile date pentru a vedea ce biți s-au schimbat, să citiți vechea valoare de paritate, să modificați biții corespunzători și apoi să scrieți noile date și noua valoare de paritate Astfel, o scriere mică ar presupune patru accesări la două discuri în loc să acceseze toate discurile Această organizație este utilizată pe o matrice RAID Paritate intercalată comună (RAID ) RAID acceptă în mod eficient diferite combinații de scrieri mari și citiri mici, plus scrieri mici Un mic dezavantaj al acestui sistem este necesitatea Capitolul Stocarea informațiilor și a altor subiecte legate de input-output Puntea actualizează conținutul discului de paritate la fiecare scriere, astfel încât discul de paritate devine blocajul pentru scrierile succesive Pentru a elimina blocajul asociat cu scrierea valorilor de paritate, informațiile de paritate pot fi propagate pe toate discurile, astfel încât să nu existe un singur blocaj de scriere Organizarea informațiilor de paritate distribuită este o caracteristică a unei matrice RAID RMD Și | ~ G E E [du-te] □ V E la rz rz] E • în • - RAID Orez Paritate bloc intercalată (RAID ) versus paritate bloc intercalată comună (RAID ) Prin răspândirea blocurilor de paritate pe toate discurile, unele scrieri mici pot fi făcute în paralel Figura arată cum sunt distribuite datele într-o matrice RAID comparativ cu o matrice RAID După cum se arată în organizația din dreapta, într-o matrice RAID , paritatea este asociată fiecărui rând de blocuri de date și nu se mai limitează la a fi pe un singur disc Această organizare permite să fie scrise mai multe scrieri în același timp, deoarece blocurile de paritate nu mai sunt localizate pe același disc De exemplu, o scriere în blocul din partea dreaptă a figurii trebuie să se refere și la blocul său de paritate P folosind astfel primul și al treilea disc A doua intrare din blocul din partea dreaptă a figurii sugerează actualizarea blocului de paritate PI referindu-se la a doua și a patra listă și, prin urmare, poate fi efectuată în paralel cu înscrierea din blocul Exact aceleași intrări la organizare arătat în partea stângă a figurii va duce la modificări în blocurile PI și P și ambele blocuri sunt situate pe al cincilea disc, care este blocajul unei astfel de organizații Redundanță P+Q (RAID ) Schemele bazate pe calculul parității protejează împotriva unui singur eșec autodeterminat Când efectuarea unei curățări nu este suficientă, paritatea poate fi propagată pentru a putea avea un al doilea calcul de date și încă o unitate cu ip de paritate Paralelism și I/O: matrice redundante de discuri ieftine ■ey Al doilea bloc de control vă permite să restaurați informații la al doilea ■slot Prin urmare, costul stocării informațiilor în comparație cu o matrice RAID este dispărut Mica suprasarcină de scriere prezentată în Fig , pa-•ltaeі exact la fel cu excepția faptului că acum există șase accesări la disc în loc de patru pentru a actualiza informațiile atât în blocurile P, cât și în Q Rezumatul matricelor RAID Mașinile RAID I și RAID sunt utilizate pe scară largă în servere, dar una dintre evaluările „ ” ale unităților de pe servere este organizată RAI D Unul dintre punctele slabe ale sistemelor RALD este repararea În primul rând, pentru a evita ca datele să fie indisponibile în timpul reparației, matricea trebuie construită astfel astfel încât discurile eșuate să poată fi înlocuite fără a închide matricele RAID ale sistemului și noile matrice au suficientă redundanță pentru a le permite să funcționeze continuu, dar schimbarea la cald a discurilor impune anumite cerințe asupra designului fizic și electric al matricei și asupra interfețelor utilizate atunci când lucrul cu discuri În al doilea rând, în timpul reparației poate apărea o altă defecțiune, astfel încât timpul de reparație afectează șansele de pierdere a datelor, cu cât reparația este mai lungă, cu atât sunt mai mari șansele unei alte defecțiuni, ceea ce va duce la pierderea datelor Pentru a exclude cip forțat să aștepte ca operatorul să aducă o unitate funcțională, unele sisteme includ piese de schimb care așteaptă să fie conectate, astfel încât datele să poată fi reconstruite imediat de îndată ce este detectată o defecțiune Operatorul poate înlocui apoi loviturile eșuate fără prea multă grabă Vă rugăm să rețineți că soluția care zbârcituri trebuie înlocuite, operatorul acceptă După cum se arată în tabel , oamenii acționează ca operator, așa că dacă îndepărtează accidental o unitate sănătoasă în loc de una proastă, aceasta va duce la o defecțiune irecuperabilă a unității Pe lângă problemele legate de proiectarea unui sistem RAI D reparabil, există întrebări despre modul în care tehnologia discurilor se schimbă în timp Deși producătorii de unități susțin valori MTTF foarte mari pentru produsele lor, toate aceste cifre corespund unor condiții de operare foarte specifice deficiențe în proiectarea sau instalarea rack-ului de echipamente, rata de eșec poate crește de - ori (a se vedea concepția greșită) în secțiunea ) Calculul de pregătire RAI al unui sistem D presupune independența defecțiunilor unității, dar aceste defecțiuni pot fi legate între ele, nu este probabil ca daunele din cauza mediului de operare să afecteze toate discurile din matrice O altă problemă apare din cauza la faptul că debitul discului crește mult mai lent decât capacitatea lor, timpul de reparare a unui disc în sistemul RA D crește, ceea ce, la rândul său, determină o creștere a șanselor de defecțiune repetată De exemplu, citirea secvențială Schimb la cald* Înlocuirea unei componente hardware pe un sistem care rulează Rezerve care așteaptă să fie conectate Resurse hardware redundante care pot înlocui imediat o componentă eșuată Capitolul Stocarea și alte pietre prețioase legate de I/O pe un disc SATA de GB pot dura aproape trei ore dacă nu există interferențe Având în vedere că, cel mai probabil, matricea D RA deteriorată continuă să servească datele, reconstrucția se poate opri semnificativ Pe lângă creșterea acestui timp, există și îngrijorarea că citirea unei cantități semnificativ mai mari de date în timpul reconstrucției va însemna o șansă crescută de eșec de citire a suportului media care nu poate fi recuperată, ceea ce poate duce la pierderea datelor O altă problemă cu defecțiunile concurente este creșterea numărului de unități din matrice și utilizarea unităților SATA, care sunt mai lente și au o capacitate mai mare decât unitățile server convenționale În consecință, consumatorii sunt atrași de protecția multi-defecțiuni și, astfel, matricele RAID sunt oferite din ce în ce mai mult ca suplimente și ca dispozitive principale Autotestare Care dintre următoarele afirmații este adevărată pentru nivelurile RAID , , , și ? Sistemele RAID se bazează pe redundanța informațiilor pentru a obține o disponibilitate ridicată RAID (oglindire) are cea mai mare suprasarcină asociată discurilor de paritate Pentru scrieri mici, RAID (bit-striped parity) are cel mai slab debit Pentru scrieri mari, RAID , și au același debit Precizări Se pune întrebarea cum interacționează oglindirea cu intercalarea Să presupunem că aveți, să zicem, patru discuri care stochează date valoroase și opt discuri fizice pe care le puteți utiliza Ați crea patru perechi de discuri, fiecare organizată ca RAJD , și apoi ați distribui date între acele patru perechi de RAID ? Sau veți crea două seturi de patru unități, fiecare organizat ca RAID , și apoi scrieți în oglindă pentru ambele seturi de RAID O? În dezvoltarea terminologiei RAID, prima combinație a devenit cunoscută ca RAID * sau RAID (-striped mirroring-) iar acesta din urmă a devenit cunoscut ca RAID + sau RAID ("mirrored striping-") Hardware real: server Sun Fire x Pe lângă revoluția în proiectarea microprocesoarelor, asistăm la o revoluție în livrarea de software În locul vânzării tradiționale de іtsyu gram pe CD-uri sau livrării lor pe internet pentru instalare pe computerul nostru, a apărut o alternativă - software sub formă de servicii de cash-in (Software as a Senice, SaaS) Adică, tu, dar internetul mergi la cineva Hardware real: server Sun Fire x Un computer care oferă un serviciu sub forma unui program care rulează deja de care aveți nevoie prin care se face toată munca Cel mai popular exemplu ar fi probabil o căutare pe web, dar există servicii pentru editarea și stocarea fotografiilor, procesarea documentelor, stocarea bazelor de date, furnizarea de lumi virtuale etc Dacă căutați din greu, puteți găsi o versiune de serviciu a aproape oricărui program folosit pe computerul dvs desktop Această schimbare a dus la crearea de centre de date mari (centre de date) cu calculatoare și lisk-uri pentru a rula servicii utilizate de milioane de utilizatori externi Cum trebuie să arate computerele dacă sunt proiectate să funcționeze în aceste centre de date uriașe? Desigur nu au nevoie de display-uri și tastaturi Este clar că dacă în centrul de date sunt de astfel de computere, atunci problemelor de utilizare eficientă a spațiului și consumul de energie se vor adăuga problemelor tradiționale de cost și performanță În acest sens, se pune întrebarea, cum ar trebui să arate depozitele de date într-un centru de date? Cu atât de multe opțiuni, o versiune populară este de a crea un bloc de discuri, procesor și memorie Pentru a lăsa deoparte îndoielile cu privire la fiabilitate, aplicațiile în sine creează copii redundante și sunt responsabile pentru păstrarea lor intacte și recuperarea după defecțiuni Industria ^ a mers în mare măsură pe calea conformării cu o serie de standarde privind proiectarea fizică a calculatoarelor pentru centrele de date, în special în ceea ce privește rafturile în care ar trebui să fie amplasate calculatoarele unor astfel de centre Rack-ul de inchi ( , mm) lățime a câștigat cea mai mare popularitate Calculatoarele proiectate pentru un rack sunt numite computere montate pe rack, dar sunt numite și o secțiune de rack sau doar un raft Deoarece amprenta tradițională în care sunt montate rafturile este de , inchi ( , mm) înălțime, această distanță este denumită în mod obișnuit unitatea de înălțime a dispozitivului montat pe rack (unitatea cu piuliță) sau pur și simplu unitatea (U) Cel mai popular rack de inchi este U, care este x , sau , inchi Adâncimea rafturilor poate fi diferită Prin urmare, cel mai mic computer montat în rack are inchi lățime și , inchi înălțime, adesea denumit computer U sau server U Din cauza dimensiunii lor, ele sunt numite „cutii de pizza” eu ia fig prezintă un exemplu de rack standard care conține de servere J Pe fig Figura prezintă Sun Fire x ca exemplu de server U În configurațiile maxime și mici, acest server U conține: ♦ Procesoare de , GHz distribuite pe două socluri ( Intel Xcon ); ♦ GB DRAM M DDR distribuite pe blocuri FBDIMM de GB ♦ Unități de disc SAS de GB de , inci, RPM; ♦ controler RAID (suport RA D , RAID , RAID și RAID ); ♦ porturi Ethernet / / ; ♦ porturi PCI Express x ; ♦ port USB extern și intern Capitolul Orez Rack standard de " umplut cu dulapuri U Acest rack conține de servere de cutie de pizza U* Sursa: http //gchelpdesK uai berta ca/news/ mar /cbhd news mar ptrp Figura prezintă schema de conectare și lățimea de bandă a microcircuitelor, locația pe placa de bază Pe fig și în tabel descrie chipsetul I/O pentru Iniei și în Tabel descrie unitățile Sun Fire x SAS Pentru a obține esenta sfatului de proiectare I/O din Secțiunea , să facem câteva calcule de performanță pentru a vedea unde ar putea fi blocajele unei aplicații ipotetice Hardware real: Sun Server Ftfex J slot* PCI Ekrhem Adaptor de rețea USfrnopT* management LED-uri de stare a sistemului Video serial Gigabit port de gestionare a adaptorului de rețea Orez Vedere frontală și vedere din spate a serverului Sun Fire x O U Măsoară , inci înălțime pe inchi lățime Partea frontală poate fi și înlocui opt unități de , inchi Partea din dreapta sus găzduiește o unitate OVD și două porturi USB Partea din spate are sursă de alimentare redundantă și ventilatoare pentru a asigura funcționarea pe termen lung a serverului, permițând defectarea uneia dintre aceste componente Exercitiul Proiectarea unui sistem I/O Să facem câteva presupuneri despre Sun Fire x : Programul utilizator folosește de instrucțiuni pentru fiecare operație I/O Sistemul de operare execută în medie de instrucțiuni per operație I/O ♦ Volumul de lucru este format din citiri de KB de date ♦ Fiecare procesor execută miliard de instrucțiuni pe secundă Determinați rata maximă de I/O susținută pentru un server Sun Fire x complet încărcat pentru citiri aleatorii și secvenţiale că citirile pot fi întotdeauna efectuate pe un disc inactiv, dacă există (adică, conflictele de disc sunt ignorate) și că controlerul RAID nu este un blocaj al sistemului Capitolul Stocarea informațiilor și a altor subiecte legate de I/O Orez în - Conexiuni logice și lățimi de bandă ale componentelor Sun Fire „ Cele trei sloturi PCIe acceptă sloturi de carduri, dar oferă doar o lățime de bandă cu opt canale atunci când comunică cu un hub de controler de memorie (MCH) Sursa: Figura ARHITECTURA SERVERLOR X ȘI X „SUN ARE”- (vezi www sun honeycomb/servers/x /x /) Răspuns Să determinăm mai întâi viteza I/O a unui procesor individual Fiecare I/O are de instrucțiuni pentru utilizator și de instrucțiuni ale sistemului de operare, prin urmare, viteza maximă de I/O a unui procesor este n rev IOPS ЖІ Există o magistrală frontală per slot, astfel încât capacitatea maximă a FSB-ului dual este de I/O-uri pe secundă, astfel încât FSB-ul nu este un blocaj Prin urmare, Sun Fire x / în configurație completă poate suporta un debit maxim de opt unități de de citiri aleatorii pe secundă sau de citiri consecutive pe secundă Capitolul Stocarea informațiilor și alte subiecte I/O Rețineți că acest exercițiu a necesitat un număr mare de ipoteze simplificatoare În practică, multe dintre aceste simplificări s-ar putea să nu fie valabile pentru aplicații cu o mare intensitate de I/O Din acest motiv, adesea singura modalitate acceptabilă de a evalua performanța I/O este de a rula o sarcină de lucru reală sau de a rula o sarcină de referință adecvată După cum am menționat la începutul acestei secțiuni, aceste noi centre de date nu se referă doar la cost și performanță, ci și la utilizarea eficientă a spațiului și a puterii În tabel Figura arată puterea necesară de Sun Fire x în modurile de așteptare și de sarcină de vârf, defalcate pe fiecare componentă Să ne uităm la configurații alternative pentru Sun Fire x pentru a economisi energie Tabelul Consum de energie Sun Fire Configurație completă în standby și sarcină de vârf Aceste date experimentale au fost obținute prin rularea sarcinii de testare SPECJB pe de configurații diferite pentru a obține cerințe diferite de performanță de vârf atunci când rulează diferite aplicații (sursa www sun com/servers/x /x /calc) Sistemul de componente Vârf de așteptare articol Nr Vârf de așteptare Un soclu cu Intel , GHz E Chipset Intel MSV/YUN Contoare Ethernet surse de alimentare, ventilatoare W W W % W % Priză opțională cu Intel , GHz E W V g Vi % W % GB DDR - FBDIMM W W W % W % GB SAS K unități de disc W VW W % W % Controler RAID de disc PCie m W W W % W % Total - - - W % W % Exercitiul Estimarea puterii sistemului I/O Reconfigurați Sun Fire x pentru a minimiza consumul de energie, presupunând că singura sarcină a serverului de tl este volumul de lucru din exercițiul anterior Răspuns Pentru a obține de citiri aleatorii de KB pe secundă din exercițiul anterior, avem nevoie de toate cele opt unități și de un controler PCI RAID Calcule anterioare Erori și neînțelegeri „Ei au spus că un singur modul DlMM poate suporta peste de I/O ■ secunde, astfel încât puterea memoriei poate fi economisită Configurația minimă de indentare pentru Sun Fire x este de două DIMM-uri, astfel încât să putem economisi timp (și bani) pe paisprezece DIMM-uri de GB, numărul de socluri utilizate pentru Intel E Folosind numerele din Tabelul obținem că acum consumul total de energie este egal cu Putere în standby * - + * + x + - W Putere de vârf t - + * * x + - W V ' local, consumul de energie a scăzut de , - , ori Sistemul Ms hrn іi poate efectua de citiri secvențiale de KB pe secundă Mai aveți nevoie de toate discurile și controlerul de disc, iar această sarcină mai mare poate fi gestionată de același număr de DlMM-uri Volumul de lucru depășește capacitatea maximă a procesoarelor disponibile în priza de apă Intel E , așa că trebuie să instalați procesoarele și în al doilea soclu Putere de așteptare * * * * * + - W Putere de vârf „ * + * + x + - W thedoіі іtslyu consumul de energie a scăzut de , - , ori Concepții greșite și neînțelegeri Iluzie Unitățile au un MTBF calculat de de ore, sau aproape de ani, astfel încât unitățile nu eșuează aproape niciodată Tehnicile de marketing ale producătorului de discuri induc în eroare utilizatorii Cum se calculează această cifră MTTF? Producătorii pun mai întâi mii de unități într-o cameră, le rulează timp de câteva luni și numără numărul de unități eșuate MTTF este calculat ca orele totale de disponibilitate totală a unităților împărțite la numărul de unități eșuate Problema este că numărul rezultat este mult mai lung decât durata de viață a unității, care de obicei se presupune că este de cinci ani sau de ore Pentru a înțelege acest MTTF mare, producătorii de discuri susțin că calculul este că utilizatorul cumpără un disc și apoi îl înlocuiește cu unul nou la fiecare cinci ani, ceea ce corespunde duratei de viață planificate a licenței Sensul afirmației este că, dacă mulți utilizatori (și copiii, nepoții și strănepoții lor) fac exact asta nu numai în acest secol, ci și în secolul următor, atunci în medie vor înlocui discul de de ori până când vor întâlni eșecul său, care va dura aproximativ de ani O măsură mai utilă este procentul de unități care se defectează într-un an, numită rata anuală de eșec (AFR) Să presupunem că de unități cu un MTTF de de ore sunt utilizate de ore pe zi Dacă înlocuiți unități defectuoase cu altele noi cu aceleași caracteristici de fiabilitate, atunci numărul de unități defectuoase pe an ( de ore) va fi egal cu Capitolul Stocarea informațiilor și alte subiecte legate de I/O de discuri x de ore pe disc , Unități eșuate -= de ore până la eșec Cu alte cuvinte, AFR este de , % Pentru a oferi utilizatorilor o imagine mai realistă a ceea ce ar trebui să se aștepte de la un produs, producătorii au început să listeze atât AFR-uri, cât și MTTB-uri Iluzie În practică, ratele de eșec ale discurilor corespund celor declarate În două studii recente, un număr mare de unități au fost evaluate pentru a vedea cum se compară rezultatele practice cu parametrii declarați Un studiu a folosit aproape de unități ATA și SCSI cu MTTF-uri revendicate de până la de ore sau AFR de , % până la , % S-a dovedit că cei mai comuni indicatori AFR erau între % și % adesea de - ori mai mare decât s-a afirmat (Schroedcrand Gibson ) În al doilea studiu, în care au fost utilizate peste de unități LTA cu AFR-uri revendicate de aproximativ , %, sa dovedit că rata de eșec |>În timp ce , % pentru unitățile de disc în primul an de funcționare, a crescut la , % în al treilea an de funcționare, sau de - ori mai mare decât sa declarat (Pinheiro Weber și Barroso ) Iluzie Printr-un canal de transmisie de date cu o lățime de bandă de GB/s, puteți transfera GB de date într-o secundă În primul rând, utilizarea a % din orice resursă computerizată este practic imposibilă În ceea ce privește autobuzul, în cel mai bun caz, acest lucru se poate face la - % din debitul de vârf Printre motivele acestei discrepanțe se numără timpul de trimitere a adresei, timpul de confirmare a semnalelor și timpul de așteptare pentru eliberarea autobuzului În al doilea rând, definițiile unui gigaoctet de stocare și ale unui gigaoctet pe secundă sunt diferite când vine vorba de lățime de bandă După cum sa menționat anterior, estimarea lățimii de bandă I/O va fi dată în baza (adică GB/s - IO octet/s) și GB de date este specificat în baza (adică GB - "octeți) Cât de semnificativă este această diferență Dacă este posibil să utilizați magistrala la % pentru transferul de date, atunci timpul pentru a transfera GB de date pe un canal cu o lățime de bandă de GB/s va fi de fapt egal cu |() " » , « , secunde Iluzie Încercați să expuneți anumite proprietăți numai intern, nu la punctele finale Problema constă în furnizarea la un nivel scăzut a acelor caracteristici care pot fi perfecţionate doar la un nivel superior, care satisface doar parţial nevoile de transmitere a datelor Salzer Reed și Clark în și-au elaborat argumentul final după cum urmează (Saltzer, Reed și Clark ); Concepții greșite și neînțelegeri Acţiunea în cauză poate fi definită complet şi corect • u-m cu conștientizarea și asistența aplicației instalat în sistemul de comunicare final touch Prin urmare, această acțiune discutabilă nu poate fi furnizată ca o proprietate a vapeme-ului de comunicare în sine Un exemplu al iluziei lor a fost rețeaua de la MIT, care a folosit mai multe gateway-uri, fiecare dintre ele adăugând o sumă de control la transmiterea datelor de la o gateway la alta Programatorii de aplicații au presupus că suma de control garantează acuratețea, crezând în mod eronat că mesajul este securizat în memoria fiecărei gateway-uri, dar ocazional unul dintre gateway-uri ar eșua, schimbând o pereche pe milion de octeți transmisi După ceva timp, codul sursă al unui sistem de operare a fost transferat de mai multe ori prin il I Ca urmare, a fost deteriorat, calculat și verificat de aplicație, ■ stins pe sistemele finale, securitatea ar fi asigurată Verificările intermediare sunt, de asemenea, utile, cu condiția să fie disponibilă verificarea punctului final ■ Verificarea punctului final poate arăta că ceva este întrerupt între două noduri, dar nu indică de unde a apărut problema Verificările intermediare pot determina care componentă este ruptă Ambele verificări sunt necesare pentru reparații Iluzie Așteptarea că transferul de funcții de la CPU la procesorul I/O va îmbunătăți performanța fără o analiză atentă Există multe exemple de oameni care cad în această capcană, deși procesoarele I/O pot îmbunătăți cu adevărat performanța atunci când sunt utilizate corect Destul de des, această concepție greșită se manifestă prin utilizarea interfețelor I/O „inteligente”, care, din cauza supraîncărcării mai mari a unei solicitări I/O curente, pot avea o latență mai proastă decât I/O convențională condusă de procesor (deși dacă procesorul este complet eliberat, debitul sistemului poate crește în continuare) Adesea, performanța scade atunci când procesorul I/O este mult mai lent decât procesorul principal Ca rezultat, o cantitate mică de timp de procesor principal este înlocuită cu timp de procesor I/O mai substanțial Constructorii de stații de lucru au fost nevoiți să se confrunte de multe ori cu ambele fenomene Mayer și Sutherland în au scris o lucrare clasică despre compromisurile dintre complexitate și performanță în controlerele I/O Împrumutarea computerului iii conceptul de „ciclu de reîncarnare”, ei au observat în cele din urmă că au fost prinși într-un ciclu de creștere constantă a puterii procesorului I/O care a ajuns că avea nevoie de propriul său coprocesor simplu (Myerand Sutherland, ) Am abordat problema, începând cu un circuit simplu și apoi adăugând comenzi și caracteristici despre care credeam că vor crește puterea mașinii Treptat, /display-ul/procesorul devine din ce în ce mai complex Capitolul Stocarea informațiilor și alte subiecte I/O În cele din urmă, procesorul de afișare a început să semene cu un computer cu drepturi depline, cu o serie de capacități grafice speciale Și apoi sa întâmplat ceva neobișnuit Am simțit nevoia să adăugăm procesorului un al doilea procesor auxiliar, care deja devenea din ce în ce mai complex în sine Atunci am ajuns la o concluzie dezamăgitoare Dezvoltarea procesorului de afișare poate deveni un proces ciclic fără sfârșit De fapt, ne-am dat seama că procesul ne-a frustrat atât de tare încât am început să-l numim „ciclul reîncarnărilor” Neînţelegere Utilizarea unităților de bandă pentru backup pe disc Aceasta nu este doar o neînțelegere, ci și o amăgire Unitățile de bandă făceau parte din sistemele informatice împreună cu discurile, deoarece foloseau aceeași tehnologie ca și licks și, prin urmare, au suferit aceleași îmbunătățiri ale densității de înregistrare în timp Diferența istorică cost/performanță dintre discuri și benzi se bazează pe faptul că un disc rotativ sigilat are un timp de acces mai rapid decât o bandă secvențială; dar bobinele detașabile de bandă fac posibilă utilizarea unui număr mare de benzi pe un singur cititor, care poate fi de lungime foarte mare și, în consecință, de capacitate mare Prin urmare, când în trecut o singură bandă putea stoca conținutul mai multor discuri și, deoarece un gigaoctet era de până la de ori mai ieftin decât discurile, benzile erau un mediu de rezervă viabil A existat o configurație pentru a urmări dezvoltarea discurilor, astfel încât inovațiile în discuri să ajute la progresul unităților de bandă Această configurație s-a datorat faptului că benzile aveau o piață foarte mică și nu a fost posibil să se efectueze separat cercetări și dezvoltare mari Un motiv pentru îngustimea pieței este că că proprietarii de desktop nu fac copii de rezervă ale benzilor Se pare că computerele desktop sunt cea mai mare piață pentru discuri și o piață foarte mică pentru unitățile de bandă Din păcate, piața mai largă a însemnat că discurile s-au îmbunătățit mult mai repede decât unitățile de bandă Din până în , cele mai populare unități de disc au fost mai mari decât cele mai populare unități de bandă În aceeași perioadă de timp, costul unui gigabyte de discuri ATA a scăzut sub costul său în unitățile de bandă Susținătorii unităților de bandă au susținut că aceste unități au cerințe de compatibilitate care nu sunt necesare pentru lisk-uri; Unitățile de bandă pot citi sau scrie pe generația curentă sau anterioară de benzi și trebuie să citească date din ultimele patru generații Deoarece discurile sunt sisteme închise, holonii trebuie doar să citească date de pe platourile care se află în interiorul acestor discuri, iar acest avantaj explică de ce discurile se îmbunătățesc mult mai repede Concepții greșite și neînțelegeri I Astăzi, unele organizații s-au îndepărtat cu totul de bandă, folosind rețele și locații la distanță pentru a copia date în alte locații geografice Locurile sunt alese astfel încât situațiile de urgență să nu poată dezactiva ambele locuri simultan, permițând formarea instantanee a imm (Timpul lung de recuperare în caz de dezastru este un alt dezavantaj major al naturii secvențiale a accesului pe bandă ) O astfel de soluție, care să fie „justificată din punct de vedere economic, depinde de progresul în creșterea capacității discului și a lățimii de bandă a rețelei, dar în dezvoltarea acestora Cele două direcții se investesc mulți bani și, prin urmare, au rezultate mult mai impresionante decât unitățile de bandă Zhabluzhde niv Sistemul de operare este cel mai bun loc pentru a trimite accesul la disc După cum sa menționat deja în secțiunea interfețele de nivel înalt precum ATL și SCSI oferă sistemului de operare gazdă adrese de bloc logice Cu această abstractizare la nivel înalt, cel mai bun lucru pe care îl poate face un sistem de operare în încercarea de a promova performanța este să sorteze adresele blocurilor logice în ordine crescătoare Dar, din moment ce discul știe despre maparea reală a adreselor logice la geometria fizică a sectoarelor piste și suprafețe, poate reduce latența de rotire și căutare prin reprogramarea hit-urilor Să presupunem, de exemplu, că volumul de lucru este format din patru citiri (Anderson ): Lungimea inițială a operațiunii Citiți adresa logică Spock (i BA) V Citirea Citirea Citirea Sistemul de operare gazdă poate schimba ordinea celor patru citiri prin aranjarea lor în ordinea blocurilor logică: Lungimea LBA inițială a operațiunii Citirea Citirea Citirea V Citirea În funcție de plasarea relativă a datelor pe disc, permutarea, așa cum se arată în Fig , nu poate decât să înrăutățească situația O citire a cărei ordine este determinată de dispozitivul de disc în sine se poate finaliza în trei sferturi dintr-o revoluție a discului, dar dacă ordinea este determinată de sistemul de operare, citirea va dura trei rotații Capitolul Stocarea informațiilor și alte subiecte I/O -» Coadă compusă de OS -* Coadă compusă de diene Orez la Un exemplu bazat pe un plan de apel întocmit de sistemul de operare comparativ cu o captivitate întocmit de un dispozitiv dien Implementarea primului plan durează trei ture, iar al doilea doar trei sferturi de tură (Anderson ) Iluzie Utilizarea ratei de transfer de vârf inerente unei anumite părți a sistemului I/O pentru a prezice sau compara performanța Multe componente ale unui sistem I/O, de la dispozitive la controlere și magistrale, sunt caracterizate prin lățimea lor de bandă de vârf În practică, estimările acestei lățimi de bandă de vârf se bazează adesea pe ipoteze despre sistem care sunt foarte departe de realitate sau sunt pur și simplu de neatins din cauza limitărilor inerente ale sistemului De exemplu, atunci când se evaluează performanța magistralei, rata de transfer de vârf este uneori determinată folosind un sistem de memorie care nu poate fi creat Iar pentru sistemele de rețea, suprasarcina software-ului de stabilire a unei conexiuni este ignorată Bus PCI pe de biți care rulează la MHz are o rată de transfer de date de vârf de aproximativ MB/s În practică, chiar și pentru transferuri lungi pentru sisteme de memorie reale, este destul de dificil să se atingă viteze de chiar și MB/s Legea lui Amdahl ne amintește și de acest lucru că debitul sistemului I/O va fi limitat de componenta de pe calea I/O care are cea mai scăzută performanță Comentarii finale Comentarii finale Sistemele I/O sunt evaluate pe baza mai multor criterii: fiabilitate, varietate de dispozitive I/O acceptate, număr maxim de dispozitive I/O, cost și performanță măsurate atât prin latență, cât și prin debit Aceste „prețuri” duc la o mare varietate de scheme de interfață de sistem apă-la-ieșire În sistemele cele mai ieftine și cu prețuri medii, DMA tampon este mecanismul de transfer dominant În sistemele scumpe, atât latența, cât și debitul pot fi importante, iar costul poate fi secundar Sistemele scumpe sunt adesea caracterizate de mai multe rute către dispozitivele I/O și de stocare tampon limitată Pe măsură ce sistemul crește, caracteristica mai importantă devine de obicei capacitatea de a accesa date pe dispozitivul I/O ■ oricând doriți (pregătire ridicată) Ca urmare, pe măsură ce sistemul se extinde, redundanța devine din ce în ce mai comună ■ corectarea erorilor Cerințele pentru stocarea și transmiterea datelor prin rețea cresc într-un ritm incredibil, și în special din cauza cerințelor tot mai mari pentru toate informațiile care trebuie să fie disponibile în orice moment O estimare a fost că volumul de informații creat în a fost de exaocteți, echivalentul a de copii ale textului din Biblioteca Congresului SUA și că cantitatea totală de informații din lume se dublează la fiecare trei ani (Lyman și Varyan, ) ) Direcția viitoare a I/O include extinderea acoperirii rețelelor cu fir și fără fir, astfel încât practic fiecare dispozitiv să aibă potențial propria adresă IP, extinzând rolul memoriei flash în sistemele de stocare a informațiilor Interfață hardware și software Performanța sistemelor I/O, indiferent de modul în care este măsurată în ceea ce privește debitul sau latența, depinde de toate elementele rutei dintre dispozitiv și memorie, inclusiv de sistemul de operare care generează comenzile I/O Lățimea de bandă a canalelor de comunicație, memorie și dispozitiv determină rata maximă de transfer de date de la sau către dispozitiv În mod similar, latența depinde de latența dispozitivului în combinație cu latența impusă de sistemul de memorie sau de magistrală Debitul mare și timpii de răspuns depind, de asemenea, de alte solicitări I/O care pot provoca conflicte pentru o anumită resursă de-a lungul rutei În cele din urmă, blocajul este sistemul de operare În unele cazuri, sistemul de operare durează foarte mult timp pentru a furniza o solicitare I/O de la programul utilizatorului către dispozitivul I/O, rezultând o latență ridicată Există, de asemenea, momente în care sistemul de operare limitează sever debitul I/O Capitolul Stocarea informațiilor și a altor subiecte legate de intrare - „input din cauza limitărilor numărului de operațiuni I/O concurente pe care le poate suporta Rețineți: indiferent de ce Deoarece performanța ridicată poate ajuta la creșterea vânzărilor de sisteme I/O, utilizatorii trebuie să obțină mai multă capacitate și fiabilitate de la sistemele lor I/O Exerciții Prin amabilitatea lui Perry Alexander (Regg Alexander) de la Universitatea din Kansas Exercițiul Tabelul I descrie comportamentul, partenerii și ratele de date ale dispozitivelor I/O Dar această clasificare nu oferă întotdeauna o imagine completă a fluxului de date în cadrul sistemului Explorați clasificarea următoarelor dispozitive un joc video b Navigator GPS portabil | ] Definiți interfețele I/O și specificați partenerul și comportamentul dispozitivelor enumerate în tabel ( ) Calculați rata de date a interfețelor definite în problema anterioară [ ] Determinați dacă performanța interfețelor definite în problema anterioară este mai bine caracterizată de rata de date sau rata exprimată în operații pe secundă Exercițiul Timpul mediu între defecțiuni (MTBF), timpul mediu de reparare (MTTR) și timpul între defecțiuni (MTTF) sunt metrici utile pentru evaluarea fiabilității și disponibilității unei resurse de stocare Explorați aceste concepte răspunzând la întrebări despre dispozitive cu următoarele valori MTTF a ani saptamana b ani zile [ | Calculați MTBF pentru fiecare dispozitiv din tabel Exerciţii [ ] Calculați disponibilitatea pentru fiecare dispozitiv reprezentat în tabel [ ] Ce se întâmplă imediat când Mtgi se apropie de zero? Cât de realistă este această situație? [ ] Ce faci când MTTR-ul devine foarte mare, ceea ce înseamnă că dispozitivul devine greu de recuperat? Crește că dispozitivul are pregătire scăzută? Exercițiul Pentru a compara dispozitivele de stocare, se măsoară adesea timpul mediu și minim de citire și scriere Folosind tehnicile discutate în acest capitol, curățați valorile legate de timpii de citire și scriere pentru unități cu următoarele specificații Timp mediu de căutare, ms RPM Rata de transfer de date realizată de disc, MB/s Rata de transfer de date realizată de controler, MB/s a b [ ] Calculați timpul mediu de citire sau scriere pentru un sector de de octeți pentru fiecare disc listat în tabel [ | Calculați timpul minim de citire sau scriere pentru un sector de ^-octeți pentru fiecare listă listată în tabel [ ] Determinați pentru fiecare disc listat în tabel factorul dominant în performanța acestuia Mai precis, pe care dintre valorile de disc ați schimba dacă ați avea spațiu pentru a îmbunătăți vreuna dintre ele? Dacă nu există factori dominanti, explicați de ce Exercițiul În cele din urmă, proiectarea sistemelor de stocare necesită nu numai luarea în considerare a parametrilor discurilor, ci și a scenariilor de utilizare a acestora Situații diferite necesită parametri inițiali diferiți Să încercăm să evaluăm sistemele de discuri Explorați diferența cum ar trebui evaluate sistemele de stocare răspunzând la întrebări despre următoarele aplicații la NASA Interactive Satellite Base b Sistem de jocuri video [ ] Reducerea dimensiunii sectorului pe bază de citire sau scriere ar îmbunătăți performanța sistemului per aplicație? Justificați răspunsul dvs Capitolul Stocarea informațiilor și alte subiecte I/O [ ] Creșterea vitezei de rotație a discului ar îmbunătăți performanța sistemului per aplicație? Justificați răspunsul dvs [ ] Pe bază de aplicație cu aplicație, creșterea rotației discurilor va îmbunătăți performanța sistemului dacă MTTF este redus? Justificați răspunsul dvs Exercițiul Memoria flash este unul dintre principalii concurenți reali ai unităților de disc tradiționale Explorați valoarea memoriei flash răspunzând la întrebări despre următoarele aplicații o bază interactivă prin satelit NASA b Sistem de jocuri video | ] Ce se va schimba în ceea ce privește timpul de citire a discului când treceți la unități SSD create din memorie flash, presupunând că rata de transfer de date rămâne aceeași? ( ) Va beneficia fiecare aplicație de un SSD, având în vedere că costul este un factor de calcul? [ ) Fiecare dintre aplicații ar fi considerată nepotrivită pentru unitățile flash SSD, având în vedere că costul nu este un factor de design? Exercițiul Explorați caracteristicile memoriei flash răspunzând la întrebări despre performanța dispozitivelor de memorie flash cu următoarele caracteristici Rata de transfer de date, MB/s Rata de transfer de date a controlerului, MB/s un S b ( ) Calculați timpul mediu de citire sau scriere a unui sector de de octeți pentru fiecare dispozitiv flash listat în tabel ( ) Calculați timpul minim de citire sau scriere pentru un sector de octeți pentru fiecare dispozitiv flash listat în tabel ( | Tabelul arată că timpii de acces la citire și scriere flash cresc pe măsură ce crește cantitatea de flash Este aceasta o surpriză? factorii care o cauzează? Exercițiile Exercițiul Intrarea și ieșirea pot fi efectuate fie sincron, fie asincron Explorați diferența dintre ele răspunzând la întrebări despre performanța următoarelor periferice un soarece Controler de memorie | | Ce tip de magistrală este cel mai potrivit (sincronă sau asincronă) pentru a gestiona comunicarea dintre CPU și perifericele permutate? | | Ce probleme vor pune magistralele lungi și sincrone pentru conectarea procesorului la perifericele enumerate în tabel? Ce probleme vor crea magistralele asincrone pentru comunicarea dintre CPU și perifericele enumerate în tabel? Exercițiul Tipurile de magistrală cel mai frecvent utilizate astăzi includ FireWire (IEEE ), USB, PCI și SATA Deși toate cele patru autobuze sunt asincrone, ele sunt implementate diferit, astfel încât au caracteristici diferite Explorați structurile diferitelor anvelope răspunzând la întrebări despre anvelope și următoarele periferice]hіygtnah un soarece b Controler de memorie [ | Selectați magistrala (FireWire, USB PCI sau SATA) potrivită pentru dispozitivele periferice enumerate în tabel (Caracteristicile principale ale fiecărei anvelope sunt prezentate în Tabelul - ) [ ] Folosiți resurse online sau materiale de bibliotecă și compilați un scurt rezumat al structurii de comunicare pentru fiecare tip de magistrală Determinați ce face controlerul de magistrală și unde este exercitat fizic controlul ] Descrieți limitările fiecărui tip de autobuz Explicați de ce aceste limitări ar trebui luate în considerare atunci când utilizați autobuzul Exercițiul Comunicarea cu dispozitivele I/O se realizează folosind o combinație de interogare, gestionarea întreruperilor, maparea memoriei și instrucțiuni speciale I/O Răspundeți la întrebări despre modul în care subsistemele I/O comunică cu următoarele aplicații folosind combinații ale acestor tehnologii Capitolul Stocarea informațiilor și alte subiecte I/O un controler de jocuri video b Monitorul computerului | | Descrieți sondarea dispozitivului serial Fiecare dintre aplicațiile enumerate în tabel va fi potrivită pentru comunicare folosind tehnologia de sondare? Justifica ( Descrieți comunicarea bazată pe întreruperi Pentru fiecare dintre aplicațiile enumerate în tabel, dacă sondarea nu se potrivește, sugerați o altă tehnologie ] Pentru aplicațiile enumerate în tabel, descrieți construcția de comunicare utilizând maparea memoriei Identificați locațiile de memorie rezervate și descrieți conținutul acestora [ | Oferiți o scurtă descriere a constructului care implementează schimbul de date bazat pe comandă Descrieți comenzile și interacțiunea lor cu dispozitivele enumerate în tabel | Are sens să definim subsisteme I/O care utilizează o combinație de mapare în memorie și comunicare bazată pe comandă? Justificați răspunsul dvs Exercițiul Secțiunea a definit procesul de gestionare a întreruperilor, care constă din opt pași Informațiile despre cauza întreruperii și starea sistemului de gestionare a întreruperii au fost furnizate în registrele de cauză (cauză) și stare (stare) Explorați gestionarea întreruperilor răspunzând la întrebări despre următoarea combinație de întreruperi ia oprire Supraîncălzire controler de date Ethernet Supraîncălzire Reporniți controlerul mouse-ului | | Când este detectată o întrerupere, valoarea registrului de stare este salvată și toate întreruperile, cu excepția celor cu prioritate mai mare, sunt dezactivate De ce sunt dezactivate întreruperile cu prioritate mai mică? De ce este reținută valoarea registrului de stare până când întreruperile sunt dezactivate? ( ] Prioritizează întreruperile dispozitivului enumerate în fiecare linie a tabelului ( ) Descrieți pe scurt cum va fi gestionată o întrerupere de la fiecare dispozitiv listat în tabel ( ) Ce se întâmplă dacă bitul de activare a întreruperii din registrul cauzelor nu este setat în momentul procesării întreruperii? Ce valoare poate lua bitul masca de întrerupere pentru a produce același rezultat? ( ) Majoritatea sistemelor de gestionare a întreruperilor sunt implementate în sistemul de operare Pentru ce suport hardware poate fi adăugat Exercițiile □ să îmbunătățească eficiența gestionării întreruperilor? Comparați soluția dvs cu suportul hardware real pentru apelurile de funcții | ) În unele implementări ale gestionării întreruperilor, interrupt-ig determină o tranziție imediată la vectorul de întrerupere În loc de nger, motivele pentru care bitul este setat de fiecare întrerupere fiecare pre-schwanp are propriul său vector de întrerupere Poate fi implementat același sistem de prioritate de întrerupere folosind această abordare? Exercițiul Accesul direct la memorie (DMA) permite dispozitivelor să acceseze memorie direct și nu prin CPU Acest lucru poate crește foarte mult viteza perifericelor, dar face stocarea memoriei mai dificil de implementat Explorați implicațiile DMA răspunzând la întrebările despre următoarele periferice placă grafică , Sonic Hag [ J Renunță CPU la gestionarea memoriei când DMA este activ? De exemplu, un cont periferic poate comunica direct cu memoria, ocolind CPU-ul? [ ] Care dintre perifericele enumerate în tabel ar beneficia de utilizarea DMA? Ce criterii determină acceptabilitatea unui DMA? [ ] Care dintre dispozitivele periferice enumerate în tabel poate cauza coruperea memoriei cache? Cum determină Cree to I'em necesitatea de a ridica problema încălcării integrității? | | Descrieți problemele care pot apărea la combinarea DMA și memoria virtuală Care dintre dispozitivele periferice enumerate în tabel pot cauza astfel de probleme? Cum le poți evita? Exercițiul Estimările performanței dispozitivului I/O pot varia foarte mult de la o aplicație la alta În unele situații, performanța este dominată de numărul de tranzacții procesate, în timp ce în alte situații, debitul este o influență atât de dominantă Explorați scorul de performanță I/O răspunzând la întrebări despre următoarele aplicații |a Navigarea resurselor de pe Internet Editare sunet Capitolul Stocarea informațiilor și alte subiecte legate de I/O ] Pentru fiecare dintre aplicațiile enumerate în tabel, performanța I/O va fi măsura dominantă a performanței generale a sistemului? ( ] O măsură simplă a debitului ar fi cea mai bună estimare a performanței I/O pentru fiecare dintre aplicațiile enumerate în tabel? ] | Numărul de tranzacții procesate ar fi cea mai bună estimare* a performanței I/O pentru fiecare dintre aplicațiile enumerate în tabel? | | Există o relație între estimările de performanță din cele două sarcini anterioare și alegerea între utilizarea sondajului sau întreruperea la organizarea controlului comunicării? Ce zici de alegerea I/O mapată cu memorie sau I/O comandată? Exercițiul Testele joacă un rol important în evaluarea și selecția perifericelor Testele bune ar trebui să creeze situații care imită condițiile reale de muncă Din învățați sarcinile de testare și selectarea dispozitivului, răspunzând la întrebări legate de următoarele aplicații a Navigarea resurselor pe Internet Editare sunet ] Pentru fiecare dintre aplicațiile enumerate în tabel, determinați caracteristicile care trebuie testate la evaluarea subsistemelor I/O ] Folosind resursele Internet sau materialele bibliotecii, determinați un set de sarcini de control standard pentru aplicațiile enumerate în tabel Ce face ca sarcinile de control standard să fie utile? ] ] Are sens să evaluăm un subsistem I/O separat de sistemul mai mare din care face parte? Dar ratingul procesorului? Exercițiul RAI D-array aparține celor mai populare abordări ale dezvoltării paralelismului și redundanței în sistemele de stocare a informațiilor Numele în sine este Redundant Arrays of Inexpensive Disks, adică matricele redundante de discuri ieftine implică mai multe concepte simultan legate de matricele RAlD, care vor fi explorate în următoarele sarcini a Furnizarea de servicii de baze de date interactive* Editare sunet' , Exercițiile [ ] Matricea RA I) utilizează striping pentru a iniția accesul la jurnalul mra i la mai multe discuri simultan De ce striping a îmbunătățit performanța discului? Alternarea ar fi cea mai bună alegere pentru fiecare acțiune enumerată în tabel? | | O matrice RAID reflectă datele pe mai multe ■discuri Având în vedere că că unitățile ieftine au un MTBF mai mic decât cele scumpe, cum se poate reflecta utilizarea excesivă a unităților ieftine într-un sistem cu un MTBF mai mic? Utilizați definiția matematică a MTBF pentru a vă justifica răspunsul Utilizarea RAID se va potrivi cel mai bine cu fiecare dintre pașii din tabel? [ ] La fel ca RAID , RAID oferă o disponibilitate mai mare a datelor Explicați modul în care matricele RAID și RAID sunt consecvente între ele Va beneficia fiecare dintre aplicațiile enumerate în tabel de pe urma utilizării RAID față de utilizarea RAID ? Exercițiul Matricele RAID , RAID și RAID folosesc sisteme pentru a proteja blocurile de date paritate Mai precis, un bloc de paritate este asociat cu o colecție de blocuri de date Fiecare rând din tabelul următor conține valorile blocurilor de date și paritate prezentate în fig Noua valoare D oo O D P a FEFE OOFF AZB F FFOO b A C F OOFF FFF A Calculați noua valoare a blocului de paritate P' pentru tabloul RA D ] Calculați noua valoare a blocului de paritate P' pentru o matrice RAID ( ] Este RAID sau RAID mai eficient? Există vreun motiv pentru care RAID ar fi preferat față de RAID ? [ ] RAID și RAID folosesc aproximativ același mecanism pentru calcularea parității blocurilor Cum este RAID diferit de RAID și pentru ce aplicații RAID va funcționa mai bine? ( ] RAID și RAID se accelerează în comparație cu RAID pe măsură ce dimensiunile blocurilor protejate cresc De ce se întâmplă asta? zf-fekinnno decât RAID ? Exercițiul Apariția serverelor web pentru comerțul electronic, cumpărăturile online și schimbul de informații a făcut ca serverele de disc să fie un dispozitiv foarte solicitant Disponibilitatea și viteza sunt măsuri binecunoscute ale performanței discului Capitolul Stocarea informațiilor și alte subiecte legate de I/O servere, dar importanța consumului de energie este în continuă creștere Răspundeți la întrebări referitoare la configurarea și evaluarea serverelor de disc care au următoarele opțiuni Număr de instrucțiuni de program per operație I/O Numărul de instrucțiuni ale sistemului de operare per operație I/O Sarcina de lucru Citiți viteza procesorului KB, miliarde de instrucțiuni/s a b OSYU Determinați viteza maximă susținută a nodului de ieșire pentru citiri și scrieri aleatorii Ignorați conflictele de unitate și presupuneți că contraplatorul RAID nu este blocajul Continuați așa cum este descris în Secțiunea făcând aceleași presupuneri acolo acolo unde este nevoie ( ) Să presupunem că configurăm un server Sun Fire x așa cum este descris în secțiunea Determinați dacă o configurație cu opt discuri va fi un blocaj I/O Determinați același lucru pentru configurațiile cu discuri și Determinați dacă este prezent blocajul de ieșire a inodului magistralei PCI Module DI MM sau magistrală frontală Utilizați aceiași parametri și sugestii ca în secțiunea ( ) Explicați de ce pentru a evalua performanța curentă în sistemele reale, ei încearcă să folosească sarcini contra sau aplicații reale Exercițiul Determinarea performanței unui singur server cu date relativ complete nu este o sarcină dificilă Dar atunci când comparăm servere de la diferiți producători care oferă date diferite, a face o alegere poate fi dificilă Explorați procesul de selecție și evaluare a serverului, răspunzând la întrebări despre următoarea aplicație server web [ | Determinați caracteristicile de funcționare pentru sistemul actual în raport cu aplicația prezentată mai sus Selectați khaіkhіkterm-sticks care va susține o astfel de estimare care a fost dat pentru exercițiul ) Selectați un server disponibil pe piață care credeți că ar fi potrivit pentru a rula aplicația de mai sus Înainte de a evalua un server, precizați motivele pentru care a fost selectat [ Utilizarea unor repere ca acestea care au fost utilizate în capitolul biv exercițiul , evaluați serverul pe care l-am ales Exercițiile ■ Exerciţiul comparativ cu un server Sun Fire x care a fost evaluat • Exercițiul Pe care ați alege-o? Ești surprins de rezultatele analizei tale? Alegerea ta s-ar schimba în funcție de rezultate? | Definiți un set de benchmark-uri standard care ar fi utile pentru a compara serverul pe care l-ați selectat în Exercițiul cu Sun Fire x Exercițiul Pentru a obține o evaluare preliminară a comportamentului unităților, trebuie să fiți foarte atenți la parametrii și statisticile furnizate de furnizorii acestora Următorul tabel oferă date pentru diferiți rezidenți ■ak Calculați rata anuală de eșec (AFR) pentru discurile prezentate în tabel [ | Să presupunem că rata anuală de eșec variază pe durata de viață a discurilor prezentate în tabelul anterior Să presupunem, în special, că AFR se triplează în prima lună de funcționare și se dublează în fiecare an începând cu al cincilea an Câte discuri vor trebui înlocuite după ani de utilizare? Și câte dintre ele vor fi înlocuite după ani de funcționare? [ ) Să presupunem că discurile cu rate de eșec mai mici sunt mai scumpe În special, fundurile pot fi achiziționate la un preț mai mare pentru care rata de eșec va începe să se dubleze în al optulea, iar ns în al cincilea an de funcționare Cât ai plăti mai mult pentru discuri dacă ai vrea să le păstrezi timp de ani? In ani? Exercițiul Să presupunem că discurile din tabelul din Exercițiul - sunt configurate cu o configurație RAID care se așteaptă să crească debitul de stocare cu % și o configurație RAID I care va reduce la jumătate AFR-ul perechilor de discuri Să presupunem că costul fiecărui n Având în vedere numai parametrii inițiali ai sarcinii, ați recomanda actualizarea fie la RAID , fie la RAID , cu condiția ca parametrii individuali ai discului să rămână neschimbați ce este in tabelul anterior? Capitolul Stocarea informațiilor și alte subiecte I/O ( ] Având în vedere că compania dumneavoastră operează un motor de căutare global cu o flotă mare de dispozitive liss, ar fi logic să faceți upgrade la RAID sau RAID , presupunând că modelul dvs de venituri se bazează pe numărul de reclame trimise? [ | Efectuați din nou exercițiul pentru o flotă mare de discuri operată de o companie de servicii de backup pe Internet Ar fi logic să faceți upgrade la RAID sau RAID I, având în vedere că modelul dvs de venituri se bazează pe disponibilitatea serverelor dvs ? Exercițiul Evaluarea și întreținerea zilnică a sistemelor informatice active necesită aplicarea multor concepte discutate în Capitolul Explorați provocările evaluării sistemului examinând următoarele întrebări | ] Configurați Sun Fire x pentru a oferi TB de stocare unei matrice de de procesoare de simulare bioinformatică Când creați o configurație, nu uitați de proprietățile problemelor de simulare la scară largă , , [ J Selectați un sistem de arhivare și stocare de rezervă pentru matricea de discuri în exercițiul O I Comparați opțiunile de stocare pe disc, bandă și backup online Utilizați resursele de pe Internet și materialele bibliotecii pentru a identifica potențiale servere Evaluați costul și acceptabilitatea sistemului pentru aplicație utilizând opțiunile discutate în Capitolul Selectați opțiunile de comparat folosind proprietățile aplicației și cerințele specificate [ ] Furnizorii concurenți ai sistemelor selectate în exercițiul se oferă să își evalueze sistemele la fața locului Specificați reperele pe care le veți folosi pentru a determina cel mai bun sistem Stabiliți cât timp va dura să colectați suficiente date pentru a lua o decizie Răspunsuri la întrebări pentru autoexaminare Secțiunea : Afirmațiile și sunt adevărate Secțiunea ; Afirmațiile și sunt adevărate Secțiunea : Toate afirmațiile sunt adevărate (presupunând că MB/s nu este mult diferit de MB/s) Secțiunea : Reducerea este de încredere Secțiunea Afirmațiile și sunt adevărate Secțiunea : Afirmațiile și sunt adevărate Afirmația este falsă Secțiunea : Toate afirmațiile sunt adevărate Capitolul Sisteme și clustere multicore, multiprocesor Cel mai frumos pește nu a fost încă prins vierme irlandez Organizare multiprocesor sau cluster Interfață Capitolul Multi-core sisteme multiprocesor și clustere Multiprocesor Un sistem informatic care are cel puțin procesoare, spre deosebire de un sistem uniprocesor care are un singur procesor Paralelism la nivel de job sau la nivel de proces Utilizați mai multe procesoare rulând programe independente în același timp Programul rulează în modul paralel Un program separat este lansat simultan pe mai multe procesoare simultan Introducere Și Tel a răspuns „Unde se naște ziua, Munții Lunii, unde grosul abia se vede Prin stacojiu, prin paradis, Călărește mai departe Dacă vrei să găsești Eldorado'»' EgіgvrAchoi Po 'Eldorado' strofa , i Designerii de computere caută Eldorado de mult timp: creând computere puternice prin simpla conectare a multor computere mai puțin puternice Această idee de computer „aur” a dus la crearea sistemelor multiprocesor În mod ideal, clienții aruncă câte procesoare își permit, obținând totuși nivelul adecvat de performanță Astfel, software-ul sistemelor multiprocesor ar trebui dezvoltat ținând cont de lansarea lui pe un număr diferit de procesoare După cum sa menționat în Capitolul , atât pentru centrele de date, cât și pentru microprocesoare, consumul de energie a devenit o problemă critică Înlocuirea procesoarelor mari și ineficiente cu multe procesoare mici și eficiente poate oferi performanțe mai bune pe watt sau pe joule de consum de energie, atât mari, cât și mici sistemelor dacă software-ul le poate folosi eficient Astfel, la creșterea eficienței energetice se adaugă performanța scalabilă în cazul multiprocesoarelor Deoarece software-ul de pe sistemele multiprocesor se poate scala, unele modele acceptă operațiuni în cazul unei defecțiuni hardware; adică dacă un procesor eșuează într-un sistem multiprocesor de n procesoare, acel sistem va continua să exercite presiune de serviciu cu n - procesoare la dispoziție Prin urmare, multiprocesoarele pot crește și disponibilitatea (a se vedea capitolul ) Performanța ridicată poate însemna un randament ridicat pentru joburi care sunt independente unele de altele, ceea ce se numește paralelism la nivel de job sau paralelism la nivel de proces Aceste joburi paralele sunt aplicații independente, un lucru important și extrem de important modul popular de utilizare a computerelor paralele Această abordare este foarte diferită de rularea unui singur job pe un sistem multiprocesor Termenul „program care rulează Traducere de K Balmont Introducere în paralel” va fi folosit pentru a se referi la un singur program care rulează simultan pe mai multe procesoare Există probleme științifice care necesită computere mult mai rapide pentru a fi rezolvate, iar această clasă de probleme a fost folosită pentru a regla multe computere paralele noi în ultimele decenii Unele dintre ele vor fi discutate în acest capitol Unele dintre aceste sarcini pot fi realizate destul de simplu folosind un cluster de microprocesoare găsite în multe servere independente sau computere personale În plus, clusterele pot servi și aplicații nonștiințifice la fel de solicitante, cum ar fi motoarele de căutare, serverele web servere de e-mail și baze de date După cum sa discutat în Capitolul , multiprocesoarele ne-au atras atenția în primul rând, deoarece problema creșterii productivității poate fi atinsă doar prin creșterea numărului de procesoare pe un singur cip, și nu prin creșterea vitezei de ceas și îmbunătățirea CPI Au fost numiți mai degrabă microprocesoare cu mai multe nuclee decât microprocesoare cu mai multe procesoare, probabil pentru a scăpa de tautologia din nume Prin urmare, procesoarele din matrițele multi-core sunt adesea denumite nuclee Numărul de nuclee este de așteptat să se dubleze la fiecare doi ani De aceea, programatorii care sunt interesați de performanță ar trebui să devină specialiști în programarea paralelă, deoarece programele seriale înseamnă programe lente Cea mai mare provocare cu care se confruntă industrie a fost crearea de hardware și software care facilitează scrierea de programe paralele rulabile, care au performanță și consum de energie eficiente, pe măsură ce numărul de nuclee pe un singur cip crește exponențial Această întorsătură neașteptată a designului micro-cesorilor i-a luat pe mulți prin surprindere, creând confuzie în terminologie În tabel încearcă să definească concepte precum „serial” și „paralel*” în legătură cu hardware și software Coloanele acestui tabel reprezintă software, care este fie secvenţial sau paralel (concurrcnt) În rândurile tabelului reprezint hardware-ul, care este destinat și funcționării în serie (serial) sau paralel (paralel) De exemplu, dezvoltatorii de compilatoare consideră că programele care efectuează următoarele acțiuni sunt secvențiale: pași de analiză lexicală, parsare, generare de cod, optimizare și așa mai departe În schimb, nu este cazul times|>Răspunsurile din sistemele de operare consideră, în general, gestionatorii de evenimente I/O cooperanți ca fiind programe paralele, deoarece se referă la diferite joburi care rulează pe computer cluster Un set de computere conectate printr-o rețea locală (local anetworx LAN) care funcționează ca un singur sistem multiprocesor Microprocesor cu mai multe nuclee Un microprocesor care conține mai multe procesoare („nuclee”) pe un singur circuit integrat Capitolul Sisteme și clustere multicore, multiprocesor Tabelul Clasificarea hardware și software și „paralelism” din punctul de vedere al dezvoltatorilor de aplicații și din punctul de vedere al dezvoltatorilor de hardware Software Serial (acuențial) Paralel (concurent) Multiplicare matrice post-arterială (Aogiai) bazată pe hardware scrisă în MatLab și rulată pe un sistem de operare Intel Pentium Windows Vista care rulează pe un Intel Pentium Paralel (paralel) Matrix Marrying Psoem scris în MalLab și rulează pe un sistem de operare Intel Cheop e (Clovertown) Windows Vista care rulează pe un Intel Cheon e (Clovertown) Esența acestor două puncte de vedere, prezentate în Tabel este că software-ul paralel poate rula pe hardware serial, cum ar fi sisteme de operare pe un procesor Intel Pentium cu un singur nucleu, sau pe hardware paralel reprezentat de procesorul mai modern Intel Xeon e (Clovertown) Același lucru este valabil și pentru software-ul serial De exemplu, programatorii Matlab scriu multiplicarea matricei în modul serial, dar această multiplicare poate fi rulată în serie pe hardware Pentium sau în paralel pe hardware Xeno e Nu este greu de ghicit că singura dificultate în revoluția paralelă este de a determina cum să obții performanțe înalte, rulând software secvenţial nativ pe sisteme multiprocesor pe măsură ce numărul procesoarelor crește După ce ne-am dat seama de toate acestea, pentru a ne referi la software-ul serial sau paralel care rulează pe hardware paralel, restul materialului din capitol va folosi conceptul de program paralel sau software paralel Următoarea secțiune descrie de ce este dificil să se creeze programe concurente eficiente Secțiunile și descriu două caracteristici alternative ale hardware-ului paralel fundamental bazate pe dependența sau independența tuturor procesoarelor de la o singură adresă fizică Două versiuni populare ale acestor alternative sunt numite multiprocesoare și clustere cu memorie partajată Secțiunea descrie apoi multithreading un concept care este adesea de temut cu multiprocesare, în parte pentru că multithreadingul se bazează pe același paralelism în programe Secțiunea descrie o schemă de clasificare care reflectă reprezentări mai vechi decât cele date în tabel În plus, descrie două tipuri de arhitecturi de seturi de instrucțiuni care suportă rularea aplicațiilor seriale pe hardware paralel, și anume SIMD și ecs Secțiunea descrie cu privire la Dificultăți în crearea de programe care rulează în paralel un nou tip de computer din comunitatea hardware-ului grafic numit unitate de procesare grafică (GPU) ■fie că procesorul grafic Apoi, în Secțiunea - , sunt luate în considerare dificultățile de selectare a sarcinilor de control pentru execuția paralelă Această secțiune este urmată de o descriere a unui model nou, simplu, dar destul de profund, care ajută ■ dezvoltarea de aplicaţii şi arhitecturi Acest model este utilizat în Secțiunea pentru a evalua ultimele patru procesoare multi-core în două aplicații principale În cele din urmă, sunt luate în considerare iluziile și neînțelegerile ■ sunt date scurte concluzii privind sistemele paralele Înainte de a aborda subiectul calculului paralel, nu uitați de incursiunile noastre în acest domeniu din capitolele anterioare ♦ capitolul secţiunea : Paralelism şi instrucţiuni: sincronizare; ♦ capitolul , secțiunea : Paralelismul și aritmetica computerizată: asociativitatea; ♦ capitolul secțiunea : Paralelism și paralelism extins la nivel de instrucție; ♦ Capitolul Secțiunea : Paralelism și ierarhii de memorie: Integritatea datelor din cache; ♦ Capitolul Secțiunea : Paralelism și I/O: matrice de discuri redundante și ieftine Autotestare Determinați dacă următoarea afirmație este adevărată sau falsă: Pentru a profita de multiprocesare, aplicația trebuie să fie proiectată să ruleze în paralel Dificultăți în crearea de programe care rulează în paralel Nu hardware-ul este cel care creează complexitatea paralelismului; de fapt, doar câteva programe de aplicație cunoscute au fost rescrise pentru a accelera execuția sarcinilor pe multiprocesoare Este dificil să creezi un astfel de software care să folosească mai multe procesoare pentru a finaliza o singură sarcină mai rapid Și odată cu creșterea numărului de procesoare, această problemă nu face decât să se agraveze Care este motivul acestei complexități? De ce dezvoltarea programelor paralele n|x este mult mai dificilă decât dezvoltarea programelor secvenţiale? Primul motiv este că trebuie să obții performanțe și eficiență mai bune din rularea programelor în paralel pe un sistem multiprocesor, altfel vei ajunge să folosești doar un program serial pe un singur procesor, deoarece un astfel de program Capitolul Multicore, sisteme multiprocesor și clustere deplasarea este mai ușoară De fapt, tehnologiile de proiectare cu un singur procesor, cum ar fi superscalarele și procesoarele necomandate, folosesc paralelismul la nivel de instrucțiuni (vezi Capitolul ) și nu necesită intervenția unui programator Astfel de inovații reduc nevoia de rescriere a programelor pentru multiprocesoare deoarece programatorii nu au nimic de făcut aici și chiar și programele lor secvențiale vor rula mai repede pe computerele noi De ce este atât de dificil să scrii programe paralele care rulează mai repede, mai ales că numărul de procesoare crește? Capitolul a folosit analogia celor opt reporteri care încearcă să scrie un articol în speranța că ar putea fi făcut de opt ori mai repede Va sta pe loc și va aștepta pe acei colegi care primesc o parte mai mare din muncă Un alt problema de performanță este că reporterii trebuie să petrec prea mult timp comunicând între ei în loc să scrie propria lor parte a articolului Atât pentru această analogie, cât și pentru programarea paralelă, dificultățile constau în programare, echilibrarea sarcinii, timpul de sincronizare și costul schimbului de date între participanți Situația devine mai complicată odată cu creșterea numărului de reporteri care scriu un articol în ziar și cu creșterea numărului de procesoare pentru programarea paralelă În trecerea în revistă a materialului din capitolul , a fost descoperit un alt obstacol, și anume legea lui Amdahl Ne amintește că într-un program conceput cu un ochi pe utilizarea rațională a multor nuclee, este necesară paralelizarea chiar și a pieselor mici Exercitiul Dificultăți de accelerare Să presupunem că trebuie să obținem o accelerație de de ori cu de procesoare Ce procent din calculul original se poate face în modul serial? Legea lui Amdal (capitolul ) spune: o Timp de livrare care este afectat de ameliorare Timp de execuție după îmbunătățire • —— ♦ Gradul de îmbunătățire ♦ Timp de execuție care nu este afectat de îmbunătățire Această lege poate fi reformulată în termeni de accelerație față de timpul de execuție inițial: Accelerație - Timp de rulare anterior Runtime și" care este afectată de îmbunătățire ~ Complexitatea creării de programe care rulează în paralel Formula este de obicei rescrisă pe baza presupunerii că timpul de execuție anterior poate fi luat ca o unitate de timp egală cu , timpul de execuție la „și care este afectat de îmbunătățire, luați în considerare o fracțiune din timpul de execuție anterior: Accelerație - eu - Copil al timpului afectat de îmbunătățire - Procentul de timp afectat de îmbunătățire)* ' ■ - Înlocuim accelerația necesară de de ori în formula prezentată mai sus: - J Procentul de timp afectat de îmbunătățire ( - Procentul de timp afectat de îmbunătățire)*-— Apoi simplificăm formula și calculăm fracția de timp afectată de îmbunătățire * ( - , * Fracțiunea de timp afectată de îmbunătățire) - , - ( x , * Fracțiunea de timp afectată de îmbunătățire) - I; - I - x , x Proporția de timp afectată de îmbunătățire; Proporția de timp afectată de îmbunătățire - / , - , Se dovedește ca, pentru a reduce viteza cu un factor de la utilizarea (procesoare ), procentul de cod executat secvenţial ar trebui să fie de numai , % L - — În plus, există aplicații cu paralelism serial Exercitiul Sarcina mai dificilă Să presupunem că doriți să obțineți două sume: suma a variabile scalare și matricea sumă a două tablouri x D După aceea, calculați accelerația, cu condiția ca matricea să fi crescut în dimensiune la cu de elemente Presupunând că performanța este o funcție a timpului de însumare, t, obținem însumări care nu beneficiază de procesoare paralele și de însumări care fac Timp de execuție afectat de îmbunătățire Timp de execuție după îmbunătățire -L -♦ Gradul de îmbunătățire + Runtime nu este afectat de upgrade Se dovedește că accelerația la utilizarea a procesoare este de g/ g - , Timpul de execuție când se folosesc de procesoare este Timp de livrare după îmbunătățire - ♦ g - Capitolul Multicore, sisteme multiprocesor și clustere Se dovedește că accelerarea la utilizarea a de procesoare este de // t“ Prin urmare în condițiile date ale problemei, obținem % din potențiala accelerare când folosim procesoare și doar % când folosim de procesoare Vom vedea ce se întâmplă când dimensiunea matricei crește Programul secvenţial va avea nevoie acum de * - t Timpul de execuție atunci când se folosesc procesoare va fi Timp de execuție după îmbunătățire - + G - G rezultă că accelerația cu procesoare va fi egală cu G / I - Timpul de execuție la utilizarea a de procesoare va fi Timp de execuție după îmbunătățire - "'• Se dovedește că accelerarea la de procesoare va fi egală cu G / G - Deci, pentru această sarcină mai mare, obținem aproximativ % din potențiala accelerare la procesoare și mai mult de % la de procesoare Din aceste exemple rezultă că este mai dificil să obțineți o accelerație bună pe un multiprocesor cu o dimensiune fixă a sarcinii decât să o obțineți cu o creștere a dimensiunii sarcinii Acest lucru latră oportunitatea de a introduce încă două concepte care descriu modalități de extindere Scalare strictă înseamnă estimarea vitezei pentru o dimensiune fixă a sarcinii Scalare non-strict înseamnă că dimensiunea sarcinii crește proporțional cu creșterea numărului de procesoare Să presupunem că dimensiunea sarcinii, M, este egală cu setul de lucru stocat în memoria principală și avem procesoare P Apoi, cantitatea de memorie per procesor pentru scalare strictă va fi aproximativ egală cu M/P, iar pentru scalarea nestrict va fi aproximativ egală cu M În funcție de aplicație, orice abordare a scalării poate fi argumentată De exemplu, sarcina de control al debitului și creditului TPC-C (Capitolul ) necesită o creștere a numărului de conturi de clienți pentru a realiza un număr mai mare de tranzacții pe minut Obiecția este că este naiv să credem că masa existentă de clienți va începe brusc să folosească covorașe de baie de o sută de ori pentru lene doar pentru că banca are un computer mai rapid În schimb, dacă intenționați să demonstrați un sistem care poate procesa de de ori tranzacțiile pe minut, trebuie să experimentați cu de de ori numărul de clienți Ultimul exercițiu arată importanța obținerii unei sarcini echilibrate Exercitiul Obținerea unei sarcini echilibrate Pentru a obține o accelerare de ori pentru sarcina anterioară mai complexă folosind procesoare I OS, am presupus că încărcarea a fost " Scalare strictă Accelerație realizată pe un sistem multiprocesor FĂRĂ creșterea dimensiunii sarcinii Scalare non-strict Accelerație realizată pe un sistem multiprocesor atunci când dimensiunea sarcinii crește proporțional cu creșterea numărului de procesoare Multiprocesoare cu memorie partajată perfect echilibrat Adică, fiecare dintre cele de procesoare a avut % din muncă, iar acum, în schimb, vom arăta efectul asupra accelerării sarcinii de lucru mai mari a unui procesor în comparație cu toate celelalte Efectuați calcule pe baza unei sarcini de și S procente Dacă un procesor are o sarcină paralelă de %, atunci trebuie să efectueze % XY sau de adăugiri, iar restul de de procesoare vor împărți restul de Deoarece funcționează simultan, timpul de execuție poate fi calculat ca maxim Timp de execuție după îmbunătățire ♦ ( • Accelerația scade la / - Dacă un procesor IE are o încărcare de %, va trebui să efectueze de adăugiri ( - - + Sud ■ I ) Accelerația va scădea și mai mult până la t/ t " Acest exemplu arată importanța unei sarcini echilibrate Dublarea sarcinii unui procesor față de toate celelalte reduce accelerația la aproape jumătate, iar încărcarea sa de cinci ori în raport cu alte procesoare reduce accelerația de aproape cinci ori Autotestare Stabiliți dacă următoarea afirmație este adevărată sau falsă: scalarea strictă nu este limitată de legea lui Amdahl Multiprocesoare cu memorie partajată Având în vedere dificultatea de a rescrie programe vechi pentru a rula eficient pe hardware paralel, este oportun să ne punem întrebarea: ce pot face dezvoltatorii de computere pentru a ușura această sarcină? Una dintre scăderi este asigurarea unui singur spațiu de adrese fizice pentru uz comun de către toate procesoarele, astfel încât programele să nu se deranjeze cu problemele de unde rulează și să țină cont doar că pot fi executate în paralel Prin această abordare, toate variabilele programului pot fi disponibile oricui în orice moment procesor O alternativă este crearea unui spațiu de adrese separat pentru fiecare procesor, care ar necesita o desemnare explicită a memoriei partajate; această opțiune va fi discutată în secțiunea următoare Atunci când utilizați un spațiu de adresă fizică comun, care este destul de comun pentru cipurile multi-core, hardware-ul tinde să impune integritatea cache-ului pentru a oferi o singură imagine a memoriei totale (vezi Secțiunea din Capitolul ) Un multiprocesor cu memorie partajată (SMP) se referă la un multiprocesor care oferă programatorilor un singur proces fizic Capitolul Multicore, sisteme multiprocesor și clustere spațiu de adresă pentru toate procesoarele, deși mai precis ar trebui să fie numit un multiprocesor cu adrese partajate Rețineți că astfel de sisteme pot încă executa joburi independente în propriile spații de adrese virtuale, chiar dacă toate au un spațiu comun de adrese fizice Interacțiunea procesoarelor se realizează prin variabile partajate în memorie, iar toate procesoarele au capacitatea de a accesa orice locație de memorie, încărcând sau scriind date Organizarea clasică a SMP este prezentată în fig Procesor Cache Memorie Orez Organizarea clasică a unui multiprocesor cu memorie partajată Multiprocesor cu memorie partajată (SMP) Procesor paralel cu un singur spațiu de adresă care permite transferul de date prin încărcări și salvări Acces uniform la memorie (UMA) Un multiprocesor în care accesul la un acces uniform la memorie durează aproximativ același timp, indiferent de procesorul care a solicitat accesul și de cuvântul pe care l-a solicitat Acces neuniform la memorie (NUMA) Un tip de multiprocesor cu un singur spațiu de adrese în care unele accesări la memorie sunt mult mai rapide decât altele, în funcție de ce procesor a cerut ce cuvânt Microprocesoarele cu un singur spațiu de adresă sunt de două tipuri Primul dintre ele se caracterizează prin același timp de acces la RAM, indiferent de ce procesor solicită acest acces și ce cuvânt este solicitat Astfel de mașini sunt numite multiprocesoare cu acces uniform la memorie (UMA) În al doilea tip, unele dintre adresele de memorie au o viteză mult mai mare, în funcție de ce procesor a cerut ce cuvânt Astfel de mașini sunt numite multiprocesoare cu acces neuniform la memorie (NU MA) Ce mai faci Ai ghicit, programarea pentru microprocesoarele NUMA va fi mai dificilă decât programarea pentru procesoarele UMA, dar mașinile NUMA se pot scala la dimensiuni destul de mari, iar tehnologiile NUM A pot oferi o latență mai mică pentru memoria din apropiere Deoarece procesoarele care rulează în paralel utilizează datele partajate, vor trebui să-și clasifice munca cu datele partajate; în caz contrar, un procesor ar putea începe să lucreze asupra datelor înainte ca altul să termine lucrul la ele Această coordonare se numește sincronizare În timp ce partajarea este acceptată de o singură adresă Multiprocesoare cu memorie partajată stnom, este necesar un mecanism separat pentru sincronizare O abordare folosește o blocare pentru variabilele partajate Doar un procesor la un moment dat poate profita de blocare, în timp ce alte procesoare pot cei interesați să acceseze datele partajate trebuie să aștepte până când primul procesor deblochează variabila Secțiunea a capitolului descrie instrucțiunile care sunt utilizate pentru blocarea în MIPS Exercitiul Un program simplu care se execută în paralel pentru un spațiu de adrese comun Să presupunem că vrem să însumăm de numere pe un computer care are un multiprocesor cu memorie partajată cu acces uniform la memorie Vom presupune că avem de procesoare (începând din nou, va trebui să împărțiți setul de numere în subdiagrame de aceeași dimensiune Ras prs tg împinge nu va trebui să împărțiți setul în spații de memorie diferite, deoarece această mașină folosește un singur spațiu de adresă; noi pur și simplu va da fiecărui procesor o adresă de pornire diferită ₽p - oto număr, identificând fiecare procesor în intervalul la Toate procesoarele încep executarea programului rulând o buclă însumând subsetul lor de numere: zip(ip) • pentru O - "₽p g (): /* suia*! if (halfX !- M ₽n — sum[ J • sum( ]) • st*(half-l] /• conditional* suyaa need • dacă popovich este impar /half •half/? /• linie shared* suyaying banners* •/ if (Рп - jumătate Helt) MTO(Pn - jumătate Sl»> if (Pn i- L-receireO; liant - jumătate /• аeoісчіі ім ""ia allraayueps" •/ unt (jumătate „D /• mxox cu suma totală ♦/ Acest cod împarte toate procesoarele în emițători și receptori, iar fiecare procesor receptor primește un singur mesaj, deci putem presupune că procesorul receptor va fi inactiv până la primirea mesajului Astfel, trimiterea și primirea pot fi folosite ca primitive de sincronizare, de asemenea în ceea ce privește schimbul de date, deoarece procesatorii sunt conștienți de transferul de date Dacă numărul de noduri este impar, nodul mijlociu nu participă la trimiterea-primire Apoi limita este stabilită în așa fel încât acest nod să devină cel mai înalt nod în următoarea iterație Clarificare Acest exemplu presupune că transmiterea mesajelor este aproape la fel de rapidă ca și adăugarea De fapt, trimiterea și primirea mesajelor este mult mai lentă Pentru un echilibru mai bun al calculelor și transmisiei de date, optimizarea poate fi efectuată astfel încât o multitudine de sume de la alte procesoare să primească un număr mai mic de noduri — IMPTIP ~ I NTT- TVHFCHI HFHA tf uni I »і і BEi Interfață hardware și software Este mult mai ușor pentru dezvoltatori să proiecteze computere care depind de transmiterea mesajelor decât computerele care au memorie partajată și mențin integritatea cache-ului (vezi Secțiunea din Capitolul ) Avantaj pentru programatori Capitolul Multicore, sisteme multiprocesor și clustere Avantajul este că schimbul de date se realizează în mod explicit, ceea ce înseamnă că vor exista mai puține surprize în timpul execuției decât cu schimbul implicit de date în calculatoarele cu memorie partajată și menținerea integrității memoriei cache Și dezavantajul pentru programatori este că este dificil să portați un program serial pe un computer pe baza transmiterii mesajelor, deoarece fiecare comunicare trebuie identificată în prealabil, altfel programul nu va funcționa Memoria partajată cu Cache Data Integrity permite hardware-ului să determine ce date trebuie transferate, facilitând portabilitatea programului În ceea ce privește calea cea mai scurtă către înaltă performanță, există opinii diferite, având în vedere avantajele și dezavantajele schimbului implicit de date Dezavantajele utilizării dispozitivelor de memorie separate se transformă în avantaje în ceea ce privește disponibilitatea sistemului Deoarece clusterul este format din calculatoare independente conectate printr-o rețea locală, în comparație cu SM R , este mult mai ușor să înlocuiți o mașină fără a opri sistemul utilizarea adreselor partajate înseamnă că este foarte dificil să izolați și să înlocuiți un procesor fără eforturile eroice ale sistemului de operare Deoarece software-ul cluster este la nivelul care rulează peste sistemele de operare locale, este mult mai ușor să opriți și să înlocuiți o mașină defectă Având în vedere că clusterele sunt construite din computere întregi și rețele independente, scalabile, această izolație facilitează, de asemenea, extinderea sistemului fără a opri aplicația care rulează la nivelul superior al clusterului Costul mai mic, disponibilitatea ridicată, consumul de energie îmbunătățit și capacitatea de a se extinde rapid fac clusterele atractive pentru companiile care oferă servicii pe World Wide Web Această tehnologie este folosită în motoarele de căutare folosite de milioane de oameni în fiecare zi Companii precum eBay, Google, Microsoft Yahoo și mulți alții, există multe centre de date, fiecare cu zeci de mii de procesoare Este clar că folosirea multor procesoare în companiile de servicii de internet a avut un succes deosebit Clarificare O altă formă de calcul la scară largă este grid computing, în care computerele sunt împrăștiate pe suprafețe mari, ceea ce înseamnă că un program care rulează pe un astfel de sistem trebuie să comunice prin rețele lungi Cea mai populară și unică formă de calcul gnd a fost introdusă pentru prima dată ca parte a proiectul SETl© acasă S-a observat că, la un moment dat, milioane de computere personale sunt inactive, nu fac nicio lucrare utilă și pot fi împrumutate și folosite în mod adecvat dacă cineva dezvoltă un software care poate rula pe aceste computere și apoi le oferă tuturor unui computer o parte independentă a sarcinii la care va lucra Primul exemplu a fost sistemul de căutare pentru inteligența extraterestră Search tor ExIraTerrestrial Intellectgence (SETI) Ha SETie>home a înregistrat peste milioane de computere în mai mult de Hardware multithreading de țări și au contribuit cu peste miliarde de ore de timp de calcul La sfârșitul anului , sistemul SETI@home gnd rula la Teraflopi Autotestare Stabiliți dacă următoarea afirmație este adevărată sau falsă: ca sistemele SMP computerele care transmit mesaje se bazează pe încuietori în scopul sincronizării Stabiliți dacă următoarea afirmație este adevărată sau falsă: Spre deosebire de sistemele SMP, computerele care transmit mesaje au nevoie de mai multe copii ale programului și sistemului de operare simultan Multithreading hardware Multithreadingul hardware permite mai multor fire de execuție să partajeze blocuri funcționale ale aceluiași procesor Pentru a permite o astfel de partajare, procesorul trebuie să copieze starea independentă a fiecărui fir de execuție De exemplu, fiecare thread trebuie să aibă o copie separată a fișierului de registru și a contorului de program Memoria ca atare trebuie partajată prin mecanisme de memorie virtuală care au deja suport pentru mai multe programe În plus, echipamentul trebuie să accepte capacitatea de a comuta rapid între diferite fluxuri În special, comutarea firelor ar trebui să fie mult mai eficientă decât comutarea procesului, care necesită de obicei sute până la mii de cicluri de procesor, iar comutarea firelor ar trebui să fie instantanee Există două abordări principale ale multithreading-ului hardware Multithreading cu granulație fină comută între fire de execuție pe fiecare instrucțiune, rezultând execuția intercalată a mai multor fire Această intercalare se face adesea într-un cerc, sărind peste orice fire suspendate Pentru ca multithreadingul cu granulație fină să fie practic, procesorul trebuie să poată schimba firele de execuție cu fiecare ciclu de ceas, deoarece în timp ce un fir este suspendat, instrucțiunile altor fire de execuție vor fi executate Principalul dezavantaj al multithreadingului cu granulație fină este că încetinește reduce execuția firelor individuale, deoarece un fir care este gata de executat fără oprire va fi încetinit de instrucțiunile altor fire Multithreading hardware Creșterea utilizării CPU prin trecerea la un alt thread atunci când threadul curent este suspendat Multithreading modular zdrobit Versiunea hardware multithreading, lredlagakh poate comuta între fire după fiecare instrucțiune Capitolul Sisteme și clustere multicore, multiprocesor Coarse-grained multithreading a fost inventat ca o alternativă la multithreading cu granulație fină Cu multithreading cu granulație grosieră, firele sunt comutate numai atunci când există pauze semnificative, cum ar fi greșelile la accesarea cache-ului L Această modificare elimină necesitatea de a nu schimba firele de execuție și reduce foarte mult șansa de a încetini un fir individual, deoarece instrucțiunile de la alte fire de execuție pot fi executate numai atunci când are loc o pauză foarte costisitoare Dar multithreadingul grosier suferă de un alt dezavantaj semnificativ: este limitat în capacitatea sa de a depăși pierderile de debit, în special în cazul pauzelor scurte Această limitare rezultă din costul rulării multithreading grosier prin pipeline Deoarece un procesor cu multithreading grosier emite instrucțiuni dintr-un singur fir, conducta trebuie să fie curățată sau înghețată dacă este suspendată Un nou thread care începe să se execute după o pauză trebuie să umple conducta înainte ca instrucțiunile să aibă șansa de a se finaliza Din cauza acestor costuri generale de pornire, multithreadingul grosier este cel mai potrivit pentru a reduce supraîncărcarea pauzelor costisitoare, atunci când conducta depășește pe fundalul pauzei timpul poate fi neglijat Multithreading paralel (simultancous multithreading SMT) este o variantă de multithreading hardware care utilizează resursele procesorului cu execuția paralelă a instrucțiunilor și dispecerare dinamică cu aceasta pentru a profita de paralelismul la nivel de fir și, în același timp, de a profita de paralelismul la nivel de instrucțiune Ideea principală din spatele dezvoltării SMT este că că procesoarele cu execuție paralelă a instrucțiunilor au adesea un grad mai mare de paralelism al unității funcționale decât poate utiliza în mod eficient un singur thread Mai mult, folosind redenumirea registrului și dispecerare dinamică, instrucțiuni multiple din fire diferite pot fi declanșate fără a lua în considerare interdependența lor; Rezolvarea dependențelor se poate face folosind capabilități dinamice de dispecerare Din cauza dependenței sale de mecanismele dinamice existente, SMT Coarse multithreading O versiune de hardware multithreading care oferă comutarea între fire numai după evenimente semnificative, cum ar fi pierderile de cache Parallel Multithreading O versiune de multithreading care își reduce costul prin utilizarea resurselor necesare pentru a rula mai multe instrucțiuni în paralel și microarhitectura programare dinamică nu schimbă resursele în fiecare ciclu În schimb, SMT execută întotdeauna instrucțiuni din mai multe fire de execuție, indicând hardware-ului să conecteze sloturile de instrucțiuni și să redenumească registrele în funcție de firele de execuție cărora le aparțin Pe fig Figura ilustrează conceptual diferențele în capacitatea procesoarelor de a utiliza resursele Sulerscalar pentru următoarele configurații de procesor Partea de sus a figurii arată modul în care cele patru fire de execuție ar rula independent pe super-apelant Hardware multithreading al ■-lea procesor care nu acceptă multithreading Consultați partea de jos a figurii pentru a afla cum pot fi combinate cele patru fluxuri pentru o eficiență maximă folosind următoarele scheme: ♦ superscalar cu multithreading la scară largă; ♦ superscalar cu multithreading cu modul fin; ♦ superscalar cu multithreading paralel Sloturi de lansare -*• Debit A Debit la debit C Debit D ora * Lansare slot Paralel fin grosier modular modular ( MT) Orez Cum folosesc patru fire de execuție sloturi de procesor superscalare în abordări diferite În partea de sus a figurii, pentru patru fire, se arată cum va fi executat fiecare dintre ele atunci când rulează singur pe un procesor standard superscalar fără suport multithreading În plus, exemplele din partea de jos a figurii arată cum vor fi executate când sunt rulate împreună în trei versiuni cu mai multe fire Instrucțiuni afișate orizontal pe ciclu de ceas O secvență de cicluri de ceas este reprezentată pe verticală Pătratele goale (albe) indică faptul că slotul de rulare corespunzător nu este utilizat într-un anumit ciclu de ceas patru fire diferite Efectul suplimentar de declanșare a conductei pentru multithreading grosier, care nu este prezentat în această figură, va duce la pierderi și mai mari de lățime de bandă atunci când îl utilizați Într-un superscalar fără suport hardware multithreading, utilizarea sloturilor de rulare este limitată de lipsa paralelismului la nivel de instrucțiuni În plus, pauzele semnificative, cum ar fi cele cauzate de pierderile de memorie cache, vor face ca procesorul să rămână inactiv Capitolul Sisteme și clustere multicore, multiprocesor Într-un superscalar cu multithreading grosier, pauzele lungi sunt parțial atenuate prin trecerea la un alt fir care utilizează resurse CPU, astfel încât toate sloturile care rulează nu pot fi utilizate În cazul multithreading-ului cu granulație fină, intercalarea firelor reduce semnificativ numărul de sloturi complet goale Dar deoarece instrucțiunile dintr-un anumit ciclu de ceas rulează doar un fir de execuție, limitările paralelismului la nivel de instrucțiune duc în continuare la sloturi goale în anumite cicluri de ceas În cazul utilizării SMT, se utilizează atât paralelismul la nivel de fir, cât și paralelismul la nivel de instrucțiune, în timp ce lansarea sloturilor în același ciclu de ceas este efectuată de mai multe fire de execuție simultan În mod ideal, utilizarea unui slot care rulează este limitată de dezechilibrele cererii de resurse și de capacitatea mai multor fire de execuție de a le utiliza În practică, numărul de sloturi utilizate poate fi limitat și de alți factori Deși Fig Figura prezintă o vedere simplificată a modului în care funcționează efectiv aceste procesoare și arată clar potențialele beneficii de performanță ale multithreading-ului în general și ale S MT în special De exemplu, unul dintre cele mai recente procesoare multi-core de la Intel, Nehalem, acceptă SMT dual-thread pentru a crește utilizarea nucleului Să rezumam În primul rând, am aflat în Capitolul că bariera energetică i-a forțat pe proiectanți să se îndrepte către simplificare și procesoare mai rentabile pe un singur cip Se poate întâmpla atât de bine încât cantitatea de resurse de procesor nerevendicate cu o modificare a secvenței de execuție a instrucțiunilor să poată fi redusă și să fie utilizate forme simplificate de multithreading De exemplu, microprocesorul Sun UltraSPARC T (Niagara ) discutat în Secțiunea este o dovadă a revenirii la o microarhitectură mai simplă și, prin urmare, a utilizării multithreading-ului cu granulație fină În al doilea rând, o problemă majoră de performanță este tolerabilitatea latenței din cauza erorilor de cache Calculatoarele cu fire fine, cum ar fi UltraSPARC T , vor trece la un fir diferit la o pierdere, ceea ce poate fi mai eficient în atenuarea latenței memoriei decât încercarea de a umple sloturile neutilizate precum bSMT A treia observație este că scopul hardware-ului multithreading este de a face o utilizare mai eficientă a hardware-ului prin distribuirea componentelor între diferite sarcini Resursele sunt distribuite și în modele multi-core De exemplu, două procesoare pot partaja o unitate în virgulă mobilă sau un cache L Această partajare reduce unele dintre beneficiile multithreading-ului în comparație cu furnizarea multor nuclee non-threading SISD, MIMD, SIMD, SPMD și utilizarea a vectori Autotestare Determinați dacă următoarea afirmație este adevărată sau falsă: atât multithreading-ul, cât și multicore se bazează pe paralelism pentru a obține o ieșire mai eficientă de la microprocesor Stabiliți dacă următoarea afirmație este adevărată sau falsă: în multithreading paralel, firele de execuție sunt utilizate pentru a îmbunătăți utilizarea resurselor procesorului cu programarea dinamică și reordonarea instrucțiunilor SISD, MIMD, SIMD, SPMD și folosind vectori O altă clasificare a echipamentelor paralele a fost propusă în anii și este utilizată și astăzi Ea se baza pe numărul de fluxuri de instrucțiuni și numărul de fluxuri de date Categorii conform acestei clasificări sunt prezentate în Tabelul În consecință, un sistem tipic uniprocesor are un flux de instrucțiuni și un flux de date, iar un multiprocesor convențional are mai multe fluxuri de instrucțiuni și mai multe fluxuri de date Abrevierile SISD și MIMD sunt folosite pentru aceste două categorii, respectiv Tabelul Clasificarea echipamentelor și exemple pe baza numărului de fluxuri de instrucțiuni și fluxuri de date: SISD SIMD, MISD și MlMD Fluxuri de date Un Multiplu Fluxuri de instrucțiuni Un SIMD Intel Pentium SISD: instrucțiuni SSE add'u SsO SsC ;increment index la x adauga iu Ssl Ssl " cresterea indicelui si y suta ito ra sso compute booid legat bne StO Sze^o loop Alerta gata Și iată cum arată apelul MIPS vectorial pentru DAXPY: d SfO atsspi : scaler de sarcină a « Svl OCSsO); ■ulvs d SvZ Svl SfO ;conferenţiar întăritor şi siapar v Sv (Ssl) addv d Sv $v * adăugând y și arbitrar* sv l* Q(Ssl): salvează rezultatul Acest exemplu are o serie de comparații interesante între cele două segmente de cod Cel mai frapant este că că procesorul vectorial reduce semnificativ gama de instrucțiuni, executând doar șase instrucțiuni față de aproape pentru MIPS Această reducere se datorează faptului că operațiile vectoriale operează pe de elemente și, de asemenea, datorită faptului că instrucțiunile superioare, care alcătuiesc aproape jumătate din ciclul pe MIPS, sunt absente în codul vectorial Nu este surprinzător că acest lucru reduce numărul de instrucțiuni preluate și timpul de execuție a acestora, economisind energie O altă diferență importantă este frecvența conflictelor de conducte (vezi capitolul ) În codul MIPS simplu, fiecare instrucțiune aed d trebuie să aștepte executarea unei instrucțiuni nul d, iar fiecare instrucțiune sd trebuie să aștepte executarea unei instrucțiuni add d Într-un procesor vectorial, fiecare instrucțiune vectorială se va opri SISD, MIMD, SIMD, SPMD și utilizarea vectorilor curgerea numai pentru primul element al fiecărui vector, iar apoi elementele ulterioare vor urma fără probleme pe conductă Astfel, întârzierile conductei sunt necesare o singură dată pentru fiecare operație vectorială și nu o dată pentru fiecare element vectorial În acest exemplu, rata de întârziere a conductei în MIPS va fi de aproximativ de ori mai mare decât în VMIPS Întârzierile conductei pot fi reduse în M PS prin utilizarea derulării buclei (vezi capitolul ) Dar o mare diferență în gama de instrucțiuni nu poate fi redusă Precizări În exemplul anterior, bucla se potrivește exact cu lungimea vectorului Când buclele sunt mai scurte, arhitectura vectorială folosește un registru pentru a limita lungimea operațiunii vectoriale Când buclele sunt mai lungi, adăugăm cod de urmărire pentru a procesa iterativ toate graficele vectoriale Acest ultim proces se numește pauză de iterație (tip stnp) Compararea vectorilor cu scalarii Instrucțiunile vectoriale au o serie de proprietăți importante în comparație cu arhitectura obișnuită a setului de instrucțiuni, denumită în context arcan arhitectura scalară ♦ O singură instrucțiune vectorială definește o cantitate mare de muncă, este echivalentă cu executarea unei bucle întregi Gama necesară de instrucțiuni recuperate și decodificate este restrâns semnificativ ♦ Prin utilizarea instrucțiunilor vectoriale, compilatorul sau programatorul indică faptul că evaluarea fiecărui rezultat din vector este independentă de evaluarea altor rezultate din același vector, astfel încât hardware-ul nu trebuie să verifice existența unor conflicte de date în cadrul instrucțiunii vectoriale ♦ Arhitecturile și compilatoarele vectoriale sunt renumite pentru că ușurează mult construirea de aplicații eficiente în prezența paralelismului la nivel de date, în comparație cu sistemele multiprocesor MlMD ♦ Hardware-ul trebuie doar să verifice dacă există conflicte de date între două instrucțiuni vectoriale și să facă acest lucru pentru fiecare operand vectorial, nu pentru fiecare element din vectori Reducerea pronerok duce, de asemenea, la economii de energie ♦ Instrucțiuni vectoriale care accesează memoria au un model de acces cunoscut Dacă toate elementele vectorilor sunt adiacente între ele, atunci extragerea unui vector dintr-un set de bănci de memorie intercalate funcționează foarte eficient De aceea, pierderile de latență la accesarea memoriei principale apar o singură dată pe vector , nu pentru fiecare cuvânt din vector ♦ Deoarece întreaga buclă este înlocuită de o instrucțiune vectorială cu comportament predefinit, nu există conflicte de control care ar rezulta de obicei din salturi condiționate într-o buclă ♦ Economiile privind intervalul de instrucțiuni și verificarea conflictelor plus utilizarea eficientă a intervalului de memorie oferă arhitectură vectorială Capitolul Sisteme multicore, multiprocesor și clustere avantaje față de arhitectura scalară în ceea ce privește puterea și consumul de energie Din aceste motive, operațiunile vectoriale pot fi mai rapide decât o secvență de operații scalare cu același număr de elemente de date, iar dezvoltatorii au motive întemeiate să includă blocuri vectoriale Comparație de vectori și extensii multimedia La fel ca extensiile multimedia găsite în instrucțiunile x SSE, instrucțiunile vectoriale definesc mai multe operații simultan Dar extensiile multimedia definesc de obicei doar un număr mic dintre ele, în timp ce extensiile vectoriale definesc zeci de operațiuni Spre deosebire de extensiile multimedia, numărul de elemente dintr-o operație vectorială nu este determinat în sfera operației, ci într-un registru separat Aceasta înseamnă că diferite versiuni ale arhitecturii vectoriale pot fi implementate cu cardinalitate diferită prin simpla modificare a conținutului acestui registru și, prin urmare, menține compatibilitatea binară În schimb, noul set mai mare de coduri operaționale se adaugă de fiecare dată la extensia multimedia a arhitecturii x modificări în lungimea vectorului De asemenea, spre deosebire de extensiile multimedia, transferul de date nu are nevoie de adiacenta Vectorii suporta atat accese incrementale, in care hardware-ul incarca fiecare al n-lea element de date in memorie, cat si accese indexate, in care hardware-ul gaseste adresele elementelor incarcate in registrul vectorial La fel ca extensiile multimedia, vectorul acceptă cu ușurință flexibilitatea în lungimea datelor, astfel încât operațiunile să funcționeze pe de elemente de date pe de biți sau de elemente de date pe de biți sau de elemente de date pe biți sau de elemente de date pe biți elementele de date este destul de simplă În general, arhitecturile vectoriale sunt un mijloc destul de eficient de executare a programelor de procesare paralelă, sunt mai potrivite pentru tehnologiile de compilare decât extensiile multimedia și sunt mai ușor de evoluat în timp decât extensiile multimedia pentru arhitectura x Autotestare Determinați dacă următoarea afirmație este adevărată sau falsă: După cum sa explicat în x , extensiile multimedia pot fi reprezentate ca o arhitectură vectorială cu vectori scurti care acceptă doar transferul de date vectoriale contigue Introducere în GPU-uri Clarificare De ce nu au devenit vectorii cu aceste avantaje mai populari în afara calculului de înaltă performanță? Au existat îngrijorări serioase cu privire la faptul că registrele vectoriale cresc timpul de comutare a contextului, precum și dificultatea de a gestiona erorile de pagină la încărcarea și salvarea vectorilor și s-a susținut că instrucțiunile SIMD au atins unele dintre avantajele instrucțiunilor vectoriale au existat indicii în cele mai recente știri de la Intel că rolul vectorilor va crește O tehnologie Intel numită Advanced Vector Instructions (AVI), programată pentru lansare în , va putea extinde instantaneu registrele SSE de la la de biți și le va permite să se extindă până la de biți Aceasta din urmă expansiune este echivalentă cu numere în virgulă mobilă , care are o precizie dublă Nu este încă clar dacă acest lucru va oferi instrucțiuni pentru încărcarea și salvarea vectorilor În plus, se crede că în procesorul Larrabee Intrarea Intel pe piața GPU-urilor discrete are instrucțiuni vectoriale Clarificare Un alt avantaj al vectorilor și extensiilor multimedia este ușurința relativă de a extinde arhitectura setului de instrucțiuni scalare cu instrucțiuni care utilizează aceste tehnologii pentru a îmbunătăți performanța operațiilor de procesare paralelă Introducere în GPU-uri Rațiunea principală pentru adăugarea instrucțiunilor SIMD la arhitecturile existente a fost faptul că multe microprocesoare din computerele personale și desktop-uri erau conectate la afișaje, astfel încât tot mai mult timp de calcul a fost alocat graficii Prin urmare, atunci când, conform legii lui Moore, numărul de tranzistori disponibili pentru microprocesoare a crescut, a avut sens să se îmbunătățească procesarea grafică De îndată ce legea lui Moore a permis procesorului să îmbunătățească procesarea grafică, a făcut posibilă adăugarea unor funcții de accelerare grafică D și D la cipurile controlerului grafic video Mai mult, plăcile grafice, de obicei de la Silicon Graphics, au apărut printre cele mai avansate dispozitive care ar putea fi adăugate stațiilor de lucru, permițând crearea de imagini de calitate fotografică 'Da, cele mai avansate plăci grafice au fost populare pentru crearea de imagini generate de computer, care mai târziu au fost transmise în reclamele de televiziune și apoi în producția de filme Astfel, creșterea resurselor de lucru ale controlerelor de grafică video a avut un obiectiv foarte specific, care în multe privințe a fost similar cu modul în care supercalculatoarele au deschis calea microprocesoarelor Un mare stimul pentru îmbunătățirea procesării grafice a fost industria jocurilor pe computer dezvoltat atât pe baza computerelor personale, cât și pe console de jocuri speciale, cum ar fi Sony PlayStadon Piața în expansiune rapidă a jocurilor pe calculator a determinat multe companii să investească din ce în ce mai mult în dezvoltarea hardware-ului grafic de mare viteză astfel, ritmul de dezvoltare a procesării grafice a devenit mai mare Capitolul Multicore, sisteme multiprocesor și clustere kim în comparație cu ritmul de dezvoltare a calculului de uz general în microprocesoarele produse în masă Comunitatea de dezvoltare de grafică și jocuri a avut obiective ușor diferite față de comunitatea de dezvoltare a microprocesoarelor și și-a dezvoltat propriul stil de procesare a datelor și propria terminologie pentru a le distinge de unitățile centrale de procesare, procesoare Să ne uităm la câteva caracteristici cheie care fac unitățile de procesare grafică (GPU-uri) ) diferit de unitățile centrale de procesare (CPU): ♦ GPU-urile sunt acceleratoare care completează procesorul prin urmare, nm nu trebuie să poată îndeplini toate sarcinile inerente CPU Acest rol le permite să-și dedice toate resursele graficii Este destul de normal ca un GPU să îndeplinească unele sarcini insuficient de bine sau să nu le execute deloc, cu condiția să fie în sistem unde există atât un procesor, cât și un GPU CPU poate efectua aceste sarcini dacă este necesar Astfel, combinația CPU-GPU este un exemplu de multiprocesare eterogenă în care nu toate procesoarele sunt identice (Un alt exemplu este arhitectura IBM Cell >discută în Secțiunea , care a fost, de asemenea, proiectată pentru a accelera grafica D și D ) ♦ Interfețele de programare GPU sunt interfețe de programare a aplicațiilor (API) de nivel înalt, cum ar fi OpenGL și DirectX de la Microsoft, în combinație cu limbaje de umbrire grafică de nivel înalt, cum ar fi limbajul C al NV D A pentru grafică (Cg) și programarea de umbrire la nivel înalt de la Microsoft limbaj High Lcvel Shader Unguage (HLSL) Compilatoarele de limbi nu sunt proiectate pentru instrucțiunile mașinii, ci pentru limbaje intermediare care îndeplinesc standardele din industrie Driverul software GPU generează instrucțiuni optimizate ale mașinii, adaptate pentru GPU-ul specific Deși aceste API-uri și limbaje evoluează destul de rapid, acoperind toate resursele GPU noi permise de legea lui Moore, lipsa de compatibilitate inversă a instrucțiunilor binare permite dezvoltatorilor de GPU să exploreze noi arhitecturi fără teama de eșecuri constante de implementare Un astfel de mediu încurajează inovația mai rapidă în GPU decât în CPU ♦ Procesarea traficului implică desenarea punctelor (vârfurilor) ale primitivelor geometrice tridimensionale, cum ar fi liniile și triunghiurile, și umbrirea (umbrirea) sau desenarea, sau randarea (redarea) fragmente de pixeli ale primitivelor geometrice Jocurile video, de exemplu, desenează de - de ori mai mulți pixeli decât vârfuri ♦ Fiecare punct (vertex) poate fi desenat independent, iar fiecare fragment de pixel poate fi desenat independent Pentru a desena rapid milioane de pixeli pe cadru, este creat un GPU capabil Introducere în GPU-uri rulați mai multe fire în paralel din programele care desenează vârfuri și umbrirea pixelilor Tipurile de date grafice includ puncte (vârfurile) formate din coordonate (x, y, z, w) și pixeli formați din culori (roșu - roșu, verde - verde albastru - da, alfa alfa) GPU-urile reprezintă fiecare componentă punctuală ca un număr în virgulă mobilă pe de biți Fiecare dintre cele patru componente de pixeli a fost inițial un număr întreg nesemnat de biți, dar noi GPU-uri reprezintă acum fiecare componentă ca un număr cu virgulă mobilă cu precizie unică, între , și , Un set de lucru poate avea o dimensiune de sute de megaocteți și nu are aceeași localitate limitată în timp care este inerentă datelor din aplicațiile convenționale Mai mult, sarcinile grafice sunt caracterizate de un nivel ridicat de paralelism al datelor Aceste diferențe duc la diferite tipuri de arhitectură: Poate cea mai mare diferență este că GPU-urile, spre deosebire de procesoare, nu se bazează pe utilizarea unui cache pe mai multe niveluri pentru a depăși latența mare de acces la memorie Adică, între momentul în care o solicitare de memorie este emisă și momentul în care sosesc datele, GPU-ul rulează sute sau mii de fire care sunt independente de acea cerere Pentru a obține performanțe ridicate, GPU-urile se bazează pe paralelismul omniprezent furnizat de mai multe procesoare paralele și mai multe fire paralele RAM GPU, din aceste motive, se concentrează mai degrabă pe lățimea de bandă decât pe reducerea latenței GPU-urile folosesc module DRAM separate de același tip, cu adâncime de biți și lățime de bandă mai mare decât modulele DRAM pentru procesoarele centrale În plus, memoria RAM a procesoarelor grafice a fost în mod tradițional mai mică decât RAM a microprocesoarelor convenționale În , GPU-urile nu aveau de obicei mai mult de GB de RAM, în timp ce procesoarele aveau între și GB În cele din urmă, trebuie avut în vedere că, pentru calculele de uz general, trebuie să țineți cont de timpul pentru transferul datelor între memoria CPU și memoria GPU întrucât acesta din urmă este un coprocesor Având în vedere că GPU-urile depind de utilizarea unui număr mare de fire pentru a obține o lățime de bandă mare a memoriei, ele pot avea tot atâtea procesoare paralele câte fire Prin urmare, fiecare GPU este un dispozitiv foarte multi-threaded În trecut, pentru a obține performanța necesară pentru aplicațiile grafice, GPU-urile se bazau pe utilizarea Capitolul Sisteme și clustere multi-core, multi-procesor nu procesoare specializate tipice GPU-urile moderne se îndreaptă spre utilizarea acelorași procesoare de uz general pentru a oferi o mai mare flexibilitate de programare, ceea ce le face mai asemănătoare cu design-urile multi-core văzute în calculul de uz general ♦ Având în vedere natura cu patru elemente a tipurilor de date grafice, GPU-urile au avut în trecut instrucțiuni SIMD similare cu cele ale CPU-urilor, dar GPU-urile moderne sunt mai concentrate pe instrucțiuni scalare pentru a face programarea mai ușoară și mai eficientă ♦ Spre deosebire de procesoare, acestea nu suportau aritmetica în virgulă mobilă cu precizie dublă, deoarece aplicațiile grafice nu aveau nevoie de aceasta În , primele GPL-uri au fost introduse pentru a sprijini dublu Cu toate acestea, chiar și pe aceste noi GPU-uri, operațiunile cu precizie unică vor fi încă de până la ori mai rapide decât operațiunile cu precizie dublă, în timp ce diferența de performanță pentru procesoare se reduce la partea pozitivă a transferurilor în sistemul de memorie de mai puțini octeți pe putere de a utiliza date mai restrânse Deși GPU-urile au fost proiectate pentru o gamă mai restrânsă de aplicații, unii programatori s-au întrebat dacă și-ar putea modela aplicațiile într-un mod care să le permită să deblocheze potențialul de înaltă performanță al GPU-urilor GPU-uri (GPU-uri cu scop general sau GPGP(J) încearcă să-și rezolve problemele folosind API-uri grafice și limbaje de programare graphics shader, ei, sub influența limbajului C, au dezvoltat limbaje care le-au permis să creeze programe direct pentru GPU-uri De exemplu, citați Vgook, un limbaj de streaming pentru GPU-uri Următorul pas atât în ceea ce privește capacitățile de programare hardware, cât și limbajele de programare a fost arhitectura CUDA (Computer Unified Divice Architecture) de la NVIDIA, care permite gramaticieni să creeze programe în limbajul C care, deși cu unele restricții, ar putea fi încă executate pe procesoare grafice Odată cu creșterea programabilității, gradul de utilizare a procesoarelor grafice în calculul paralel a început să crească Introducere în arhitectura GPU NVIDIA Deoarece GPU-urile au evoluat în propriul mediu, ele nu numai că au o arhitectură diferită, așa cum am menționat mai sus, ci și un set diferit de termeni Pe măsură ce explorați terminologia GPU, veți vedea asemănări cu abordările discutate în secțiunile anterioare, cum ar fi multithreading-ul fin-modulo și vectorii Introducere în GPU-uri Pentru a vă ajuta cu trecerea la cuvinte noi, va fi oferită o scurtă introducere a termenilor și ideilor utilizate în arhitectura GPU Tesla și în mediul de programare CUDA Pe card se află un cip GPU separat, care este conectat la un computer personal printr-un conector de magistrală PCl-Express Așa-numitele GPU-uri încorporat în placa de bază, chipsetul plăcii de bază este integrat și, de exemplu, în northbridge sau southbridge (vezi capitolul ) GPU-urile sunt de obicei oferite ca o familie de cipuri cu diferite game de costuri de performanță, menținând în același timp compatibilitatea software între ele Chipseturile bazate pe GPU Tesla sunt oferite într-o gamă de la la cipuri, pe care NVIDIA le numește multiprocesoare La începutul anului , cea mai veche versiune se numea GeForce GTX, avea multiprocesoare și o viteză de ceas de GHz Fiecare multiprocesor avea opt unități cu virgulă mobilă cu precizie unică și unități de procesare întregi, pe care NVID A le-a numit procesoare de flux Deoarece arhitectura include instrucțiuni de înmulțire-adăugare cu virgulă mobilă cu precizie unică, performanța maximă de înmulțire-adăugare cu precizie unică a chipset-ului GTX este: WP x x - FLOP / I |,STR x instr , x e cicluri MP SP cicluri pe secundă x x , Gflops , Gflops pe secundă pe secundă Fiecare dintre cele multiprocesoare din GeForce GTX are KB de stocare locală controlată de prop plus registre pe de biți Sistemul de memorie GTX este format din șase segmente de memorie DRAM grafică DDR de MH, fiecare cu o lățime de octeți și MB în memorie totală, astfel este de MB Lățimea de bandă de memorie de vârf a GDDR este octeți transferuri , x cicluri IO x x x , GB , GB pe transfer pe ceas pe secundă pe secundă pe secundă Pentru a ascunde latența memoriei, fiecare procesor de flux are fire de execuție suportate de animație Fiecare grup de de fire se numește urzeală Un warp este o unitate de expediere, iar firele active și warpurile, până la , sunt executate în paralel într-o manieră SIMD Dar un sistem cu mai multe fire se ocupă de condiții, permițând firelor de execuție să diverge în diferite căi de ramificație condiționată Când firele de narp merg pe căi divergente, warp execută cod pe ambele rute secvenţial, făcând unele fire inactive, făcând firele active să se execute mai lent Odată ce partea condiționată este finalizată, hardware-ul de dormit îmbină firele într-un warp complet activ Pentru a obține cea mai înaltă performanță, toate cele de fire de crap trebuie executate în paralel în paralel Capitolul Multicore, sisteme multiprocesor și clustere În acest fel, hardware-ul monitorizează, de asemenea, fluxul de adrese care provin din fire diferite pentru a încerca să combine cererile individuale în mai puține transferuri de blocuri mai mari de memorie pentru a crește performanța atunci când lucrați cu memorie Pe fig Figura demonstrează combinația tuturor acestor proprietăți și compară multiprocesorul Tesla cu nucleul Sun UltraSPARC T , care este discutat în secțiunile - și Ambele implementează multithreading hardware bazat pe programarea temporizată a firelor, afișată pe axa verticală Fiecare microprocesor Tesla este format din opt procesoare de flux care execută opt fire paralele pe ciclu de ceas, așa cum se arată în baza orizontală Arhitectura Tesla se numește „single-instruction multiple-thread” (SIMT) SIMT detectează dinamic ce fire de execuție deținute de varn pot executa aceeași instrucțiune împreună și care fire independente vor fi inactive într-un anumit ciclu Nucleul T conține un singur procesor multi-threaded În fiecare ciclu, execută o instrucțiune pentru un fir procesoare - UltraSPARC T Fluxuri suportate hardware TrayO Flow! Stream/ Stream Apoi Streamb Tava/ WarpL Orez Comparație între un nucleu Sun UltraSPARC T (Niagara ) cu un multiprocesor Tesla Nucleul T este un singur procesor și folosește multi-threading asistat de hardware cu opt fire Multi-procesorul Tesla are opt procesoare de flux și folosește multi-threading asistat de hardware cu de ani din de fire (de opt procesoare ori patru cicluri de ceas) T poate comuta fiecare ciclu de ceas, iar Tesla poate comuta doar la fiecare două sau patru cicluri de ceas O modalitate de a compara aceste două dispozitive este să că T poate multithread doar procesorul în timp, iar Tesla poate multithread în timp și spațiu, adică opt procesoare de flux, precum și segmente și patru cicluri de ceas Introducere în GPU-uri Microprocesorul Tesla folosește multithreading hardware cu granulație fină pentru a programa de vampuri, care sunt afișate vertical în blocuri de patru cicloane de ceas Similar cu acesta UltraSPARC T programează opt fire suportate de hardware, afișate vertical, câte unul pe ciclu modul în care hardware-ul T comută între fire pentru a menține nucleul T ocupat Hardware-ul Tesla comută între memoriile warp pentru a menține ocupat multiprocesorul Tesla Principala diferență este că miezul T are un procesor capabil să comute firele de execuție cu fiecare ciclu de ceas, în timp ce unitatea minimă de comutare warp într-un multiprocesor Tesla este un interval de două cicluri de ceas în paralel pentru opt nuclee de fir Deși Tesla este proiectat pentru programe cu mult paralelism la nivel de date, designerii au considerat că există o mică diferență de performanță între comutatoare la fiecare două sau patru cicluri în comparație cu comutatoarele din fiecare ciclu și că, prin limitarea frecvenței de comutare, hardware-ul ar fi mult mai simplu Mediul de programare CUDA are, de asemenea, propria terminologie Programul CUDA este un program unificat C/C++, conceput pentru un procesor neutru eterogen și un sistem GPU, rulează pe CPU și trimite lucrări paralele pentru GPU Această lucrare constă în transferul de date din memoria principală și adică expedierea firelor Firul face parte din programul GPU Programatorii specifică numărul de fire dintr-un bloc de fire și numărul de blocuri de fire pe care doresc să le ruleze pentru execuție pe GPU Programatorilor le pasă de blocurile de fire, deoarece toate firele dintr-un bloc sunt trimise pentru a rula pe același multiprocesor, astfel încât împărtășesc aceeași memorie locală Acest lucru le permite să comunice prin încărcări și salvări, mai degrabă decât prin mesaje multiprocesor Un bloc de fire poate avea până la fire Fiecare grup de de fire dintr-un bloc de fire este împachetat în urzeală Blocurile mari de fire sunt mai eficiente decât cele mici și pot fi reduse la un singur bloc După cum sa menționat anterior, curgerea se blochează și se deformează cei cu mai puțin de de fire funcționează mai puțin eficient decât cele pline Programarea hardware încearcă, ori de câte ori este posibil, să programeze execuția mai multor blocuri de fire pe multiprocesor Dacă reușește, dispecerul împarte dinamic cei KB de stocare locală între diferitele unități de flux Capitolul Sisteme și clustere multicore, multiprocesor Perspective GPU GPU-urile precum NVIDIA Tesla nu se potrivesc cu clasificările anterioare ale computerelor, cum ar fi cea din Tabelul Fără îndoială, GeForce GTX cu multiprocesoare Tesla aparține MIMD Întrebarea este cum se clasifică fiecare dintre multiprocesoarele Tesla și cele opt procesoare de flux care alcătuiesc multiprocesorul Tesla S-a susținut anterior că SLMD este cel mai potrivit pentru bucle for și cel mai puțin potrivit pentru instrucțiunile case și switch Tesla își propune să atingă o eficiență ridicată în paralelismul la nivel de date, facilitând pentru dezvoltatori să lucreze cu paralelism independent la nivel de fir Tesla permite programatorului să se gândească la un multiprocesor ca la un dispozitiv MIMD multi-threaded format din opt procesoare de flux, dar hardware-ul încearcă să asambleze opt procesoare de flux împreună pentru a acționa ca un dispozitiv SIMT atunci când mai multe fire ale aceluiași warp pot rula împreună firele funcționează independent unele de altele și urmează căi de execuție independente, sunt mai lente decât în modul SIMT, deoarece toate cele de fire din carp partajează un bloc de preluare a instrucțiunilor Dacă toate cele de fire warp executau instrucțiuni independente, fiecare fir de execuție ar rula la / din performanța maximă a unui warp complet de de fire care rulează pe opt procesoare de flux pentru patru cicluri de ceas Astfel, fiecare fir independent are propriul computer personal eficient, astfel încât programatorii își pot imagina multiprocesorul Tesla ca pe un dispozitiv MIMD, dar Pentru a obține performanța dorită, aceștia trebuie să aibă grijă să scrie instrucțiuni de flux de control care să permită hardware-ului SIMT să execute programe CL'DA în modul SIMD Tabelul Clasificarea hardware a arhitecturilor procesoarelor și a exemplelor bazate pe modul static versus modul dinamic și pe paralelismul la nivel de instrucțiune versus la nivel de date Modul static: detectat în timpul execuției Modul dinamic: detectat în timpul execuției Nivelul de instruire Paralelism VUW Superscalar Data Layer Parallelism SIMD sau Multiprocesor Tesla vectorial Spre deosebire de arhitectura vectorială, care se bazează pe un compilator de vectorizare pentru a detecta paralelismul la nivel de date și pentru a genera instrucțiuni vectoriale, implementarea hardware a arhitecturii Tesla detectează paralelismul la nivel de date între fire în timpul execuției Astfel, procesoarele grafice Tesla nu au nevoie de compilatoare de vectorizare și fac mai ușor pentru programator să lucreze cu părți ale programului care nu au o paradigmă Introducere în topologia rețelelor multiprocesoare leisme la nivel de date Pentru a oferi o perspectivă asupra acestei abordări unice, Tabelul - oferă o clasificare care ia în considerare paralelismul la nivel de instrucțiune spre deosebire de paralelismul la nivel de date și furnizează unde se găsește paralelismul - în timpul compilării sau în timpul executării Această clasificare indică faptul că că procesorul Tesla este un cuvânt nou în arhitectura computerelor Autotestare Determinați adevărul sau falsitatea următoarei afirmații; GPU-urile sunt concepute pentru a utiliza module DRAM grafice pentru a reduce latența memoriei și, prin urmare, a crește performanța aplicațiilor grafice Introducere în topologia rețelelor multiprocesoare Pentru a conecta nucleele într-un singur sistem, cipurile cu mai multe nuclee au nevoie de o rețea pe un cip Secțiunea malefică discută avantajele și dezavantajele diferitelor rețele multiprocesoare Când o rețea este mapată pe un cip, supraîncărcarea rețelei include numărul de comutatoare, numărul de legături pe comutator pentru a se conecta la rețea, lățimea (numărul de biți) a legăturilor și lungimea legăturilor De exemplu, unele nuclee pot fi adiacente unul altuia, în timp ce altele pot fi de cealaltă parte a cristalului Performanța rețelei are, de asemenea, multe aspecte Aceasta include latența rețelei inactive în transmiterea și primirea unui mesaj, debitul în ceea ce privește numărul maxim de mesaje care pot fi transmise într-o anumită perioadă de timp, întârzierile cauzate de dispute pentru o parte a rețelei, si variatia performantelor in functie de structura comunicatii O alta responsabilitate a retelei poate fi toleranta la erori, deoarece sistemele pot fi chemate sa functioneze in prezenta unor componente defectate În cele din urmă, într-o eră a microcircuitelor cu putere limitată, eficiența energetică a diferitelor dispozitive poate avea prioritate față de toate celelalte probleme care trebuie abordate Rețelele sunt de obicei descrise ca grafice, unde fiecare arc al graficului reprezintă o conexiune la o rețea de comunicații Nodul procesor-memorie este afișat ca un pătrat negru, iar comutatorul este afișat ca un cerc umbrit În această secțiune, toate linkurile sunt bidirecționale, ceea ce înseamnă că informațiile pot merge în ambele direcții Toate rețelele sunt formate din comutatoare ale căror legături merg către nodurile de memorie procesor și către alte comutatoare Prima îmbunătățire în ceea ce privește magistrala este o rețea care conectează împreună o secvență de noduri: Capitolul Multicore, sisteme multiprocesor și clustere Această topologie se numește inel Deoarece unele noduri nu sunt conectate direct, unele mesaje vor trebui să treacă prin porturi intermediare până ajung la destinație Spre deosebire de anvelopă, un inel este capabil de multe transmisii simultane Deoarece există multe topologii din care să alegeți, este nevoie de metrici de performanță care să diferențieze toate aceste modele unele de altele Cele mai populare două metrici Prima este debitul total al rețelei, reprezentat de debitul fiecărei legături înmulțit cu numărul de legături Acest indicator reprezintă cea mai bună opțiune Pentru rețeaua inel prezentată mai sus cu procesoare P, debitul total al rețelei va fi egal cu P înmulțit cu debitul unei legături; lățimea de bandă totală a magistralei este doar lățimea de bandă a acelei magistrale sau de două ori lățimea de bandă a acelei legături Pentru a echilibra acest cel mai bun caz, am inclus o altă măsurătoare care este aproape de cel mai rău caz: debitul secțiunii Se calculează prin împărțirea mașinii în două părți, fiecare dintre ele conținând jumătate din noduri Lățimile de bandă de la legăturile care traversează această linie de divizare imaginară sunt apoi însumate Lățimea de bandă la împărțirea inelului în jumătate este de două ori lățimea de bandă și o dată lățimea de bandă a magistralei Dacă o singură legătură are aceeași viteză ca și autobuzul, atunci inelul este doar de două ori mai rapid în cel mai rău caz decât autobuzul, dar în cel mai bun caz este de P ori mai rapid Deoarece unele topologii de rețea nu sunt simetrice, se pune întrebarea unde să se traseze linia imaginară la bisectare Aceasta este estimarea în cel mai rău caz, așa că răspunsul este să alegeți acea diviziune, rezultând Lățimea de bandă a rețelei În mod informal, este rata maximă de date a unei rețele și se poate referi la rata unei legături individuale sau la rata totală de date a tuturor legăturilor din rețea Lățimea de bandă a secțiunii transversale O măsură a debitului între două părți egale ale unui multiprocesor Această estimare este pentru partiția cu microprocesor în cel mai rău caz Rețea complet conectată O rețea care conectează nodurile procesor-memorie* prin furnizarea unei linii de comunicație dedicate între fiecare pereche de noduri cele dintre care se obţine cea mai pesimistă performanţă de reţea Cu alte cuvinte, trebuie să calculați greutatea indicatorilor de debit posibil la înjumătățiri aproximative și să alegeți cel mai mic dintre ei Această viziune pesimistă este necesară deoarece capacitățile programelor paralele sunt adesea limitate de cea mai slabă verigă a lanțului de comunicare Cealaltă stare extremă a inelului este o rețea complet conectată, în care fiecare procesor are o comunicare bidirecțională cu fiecare alt procesor Pentru rețelele complet conectate, capacitatea totală a rețelei este P* (P )/ , iar capacitatea în două părți este (P/ )' Câștigurile semnificative de performanță pentru rețelele complet conectate sunt compensate de creșteri uriașe ale costurilor Acest lucru încurajează inginerii să inventeze noi topologii care să facă schimb între costul unei piste și performanța rețelelor complet conectate Introducere în topologia rețelelor multiprocesoare Evaluarea succesului unei anumite soluții depinde în principal de natura comunicării sub volumul de lucru al programelor paralele care rulează pe mașină Este destul de dificil de calculat numărul de topologii diferite luate în considerare în publicații, dar doar o mică parte dintre ele și-a găsit aplicație în procesoarele paralele comerciale Pe fig Figura prezintă două topologii populare În mașinile reale, la aceste topologii simple sunt adesea adăugate conexiuni suplimentare pentru a îmbunătăți performanța și fiabilitatea i) o rețea bidimensională, sau grilă și „ noduri b) un arbore n-ggubya uyv ( ■ ’, n- ) Orez c Topologie de rețea găsită în procesoarele industriale paralele Cercurile gri reprezintă comutatoare, iar pătratele negre reprezintă nodurile -memoria procesorului- Chiar dacă că comutatoarele au multe legături, de obicei doar una dintre ele duce la procesor Topologia booleană n-cub este o conexiune n-dimensională cu noduri de " care necesită n legături per comutator (plus una pentru procesor), conectând astfel cel mai apropiat l fiecare la alte noduri Adesea, aceste topologii de bază sunt echipate cu arcuri suplimentare pentru a îmbunătăți performanța și fiabilitatea O alternativă la plasarea unui procesor pe fiecare nod din rețea este să lăsați comutatorul doar în unele dintre aceste noduri Switch-urile sunt mai mici decât nodurile procesor-memorie-switch și, prin urmare, pot fi împachetate mai dens, reducând distanța și crescând performanța Astfel de rețele sunt adesea denumite rețele în mai multe etape pentru a sublinia pașii de existență pe care mesajele pot călători Tipurile de rețele cu mai multe etape sunt la fel de numeroase ca și tipurile de rețele cu o singură etapă; în fig Figura prezintă două structuri populare în mai multe etape O rețea complet conectată, sau o rețea cu comutare încrucișată, permite oricărui nod să comunice cu orice alt nod într-o singură trecere prin rețea Rețeaua Omega utilizează mai puține echipamente decât o rețea cu comutație încrucișată ( n log?n versus n comutatoare), dar, în funcție de schema de comunicare utilizată, se poate dezvolta o situație de dispută între mesaje De exemplu, rețeaua Omega din Fig nu poate trimite un mesaj de la Po la Pv în același timp cu trimiterea unui mesaj de la P(kP Rețea interconectată O rețea care permite oricărui nod să comunice cu orice alt nod într-o singură trecere prin rețea Capitolul Sisteme și clustere multicore, multiprocesor C) Comutator de rețea Omega Orez Topologiile rețelelor cu mai multe etape sunt populare* Comutatoarele din aceste figuri sunt mai simple decât cele din figurile anterioare deoarece legăturile sunt unidirecționale, datele intră în partea de jos și părăsesc linkul din dreapta Comutatorul prezentat în figura a poate transfera A la C și B la O sau svCiAvO O rețea cu comutare încrucișată utilizează n' switch-uri, unde l este numărul de procesoare, în timp ce o rețea Omega utilizează n log/i unități de comutare mari, fiecare din care constă în mod logic din patru întrerupătoare mai mici În acest caz, rețeaua cu comutare încrucișată folosește de comutatoare față de cele unități de comutare utilizate în rețeaua Omega, dar rețeaua cu comutare încrucișată poate suporta orice combinație de mesaje între procesoare, în timp ce rețeaua Omega nu poate Implementarea topologiilor de retea Analiza simplificată a tuturor rețelelor prezentată în această secțiune ignoră considerații practice importante privind proiectarea rețelei Distanța fiecărei legături afectează costul comunicării la o frecvență de ceas mare, în general, cu cât distanța este mai mare, cu atât este mai scump să rulezi rețeaua la o rată de ceas mare Distanțele mai scurte facilitează, de asemenea, alocarea mai multor fire pentru a lega, deoarece puterea necesară pentru a conduce mai multe fire pe un cip este mai mică dacă firele Sarcini de testare pentru multiprocesoare mai scurte Mai multe conductoare scurte sunt, de asemenea, mai ieftine decât cele lungi O altă limitare practică este că imaginea D trebuie transferată pe cristale, care sunt în cele din urmă un mediu de transmisie D Iar preocuparea supremă este consumul de energie Este ea de exemplu, poate forța cristalele să se bazeze pe topologii simple de rețea Putem spune că acele topologii care arată elegant pe desen pot să nu fie practice atunci când sunt implementate Sarcini de control pentru multiprocesoare După cum am văzut în Capitolul , sistemele de evaluare comparativă sunt întotdeauna populare, deoarece oferă o modalitate foarte vizuală de a determina care sistem este mai bun Rezultatele afectează nu numai vânzările de sisteme industriale, ci și reputația dezvoltatorilor acestora De aceea, participanții vor să câștige competiția, dar vor să se asigure că dacă altcineva câștigă, atunci el câștigă pe bună dreptate, pentru că el într-adevăr are cel mai bun sistem Această dorință este exprimată în regulile care garantează acele rezultate ale sarcinilor de referință nu sunt simple trucuri tehnice concepute pentru aceste sarcini, ci un instrument progresiv care îmbunătățește performanța aplicațiilor reale Pentru a evita eventualele trucuri, de obicei se stabilește o regulă care nu permite modificarea sarcinii de control Codul sursă și seturile de date nu sunt modificate, pentru care există o singură justificare adecvată Orice abatere de la aceste reguli va invalida rezultatele Aceste reguli tradiționale sunt urmate de multe sarcini de control pentru multiprocesoare O excepție foarte comună este capacitatea de a mări sarcinile, astfel încât să puteți rula o sarcină de testare pe sisteme cu un număr de procesoare foarte diferit Astfel, multe sarcini de control permit o scalare mică, abaterea de la regulile de scalare strictă, dar trebuie avută o atenție deosebită atunci când se compară rezultatele pentru programe care realizează diferite dimensiuni ale sarcinilor În tabel oferă un rezumat al unui număr de sarcini de control paralel, care sunt descrise mai jos: ♦ Linpack este o colecție de rutine de algebră liniară și rutine de eliminare gaussiene cunoscute sub numele de benchmark Linpack Subrutina DAXPY din exercițiul din Secțiunea este un scurt fragment din codul sursă de referință Linpack Această colecție permite o scalare nestrictă, permițând utilizatorului să selecteze o sarcină de orice dimensiune În plus, colecția permite utilizatorului să rescrie Idprask în orice formă și în orice limbă, atâta timp cât calculează rezultate acceptabile De două ori pe an, site-ul web www top org publică o listă cu cele mai rapide de computere care au prezentat cele mai înalte performanțe în rezolvare Pthread API UNIX pentru crearea și manipularea fluxurilor Furnizat împreună cu biblioteca OrepMR API pentru calculul multiprocesor cu memorie partajată ■ C C** sau Fortran, executabil pe platformele UNIX și Microsoft Include directive de compilator, bibliotecă și directive de rulare Capitolul Sisteme multi-core, multi-procesor și grupuri de sarcini de control Lmpack Primul din această listă, conform presei, este cel mai rapid computer din lume ♦ SPECrate este un estimator de debit bazat pe benchmark-uri CPU SPEC, cum ar fi SPEC CPU (vezi Capitolul ) În loc să raporteze performanța programelor individuale, SPECrate rulează mai multe copii ale unui program în același timp Astfel, acest pachet oferă o estimare a concurenței la nivel de job, deoarece nu există nicio comunicare între joburi Puteți rula orice număr dorit de copii ale programelor care din nou este o formă de scalare non-strict ♦ SPLASH și SPLASH (Stanford Paradei Applications for Shared Memory) au fost rezultatul eforturilor de cercetare făcute în anii pentru a dezvolta un set de probleme de testare pentru calculul paralel similar în scop cu setul de probleme de testare SPEC CPU Include ambele componente de bază ( sâmburi) și aplicații, dintre care multe provin din comunitatea HPC Acest set de benchmark-uri necesită o scalare strictă, deși vine cu două seturi de date ♦ NAS (NAȘA AdvancedSuperrompuring)parallelbenchmarki a fost o altă încercare de a testa performanța multiprocesorului în anii Problemele de control derivate din dinamica fluidelor computaționale constau din cinci componente de bază Acestea permit scalarea non-strictă prin definirea mai multor seturi de date Ca și IDprash, aceste probleme de control pot fi rescrise, dar regulile impun ca limbaj de programare să fie folosit doar C sau Fortran ♦ Unul dintre cele mai recente pachete de referință PARSEC (Pnnceton Application Repository for Shared Memory Computere) constă din programe multi-threaded folosind Pthreads (file POS X - fire POSIX) și OpenMR (OPSP MultiProcessing - multiprocesare deschisă) Dezavantajul unor astfel de restricții tradiționale impuse sarcinilor de control este că că inovațiile se limitează în mare parte la arhitectură și compilator Adesea, nu este posibil să profitați de structuri de date, algoritmi, limbaje de programare, etc mai bune, deoarece toate vor duce la rezultate înșelătoare Sistemul poate câștiga datorită, să zicem, algoritmului, nu datorită hardware-ului sau compilatorului Deși aceste standarde au fost clare în anii și în prima jumătate a deceniului următor, când principalii indicatori ai tehnologiei informatice și-au păstrat Sarcini de testare pentru multiprocesoare stabilitate, odată cu începutul revoluției computerelor, au încetat să se potrivească tuturor Pentru a menține ritmul revoluționar, era nevoie de inovație la toate nivelurile Tabelul Exemple de sarcini de control paralel Sarcină de testare Scalare Reprogramm-rooaime Descriere Despachetează Nonstrict Da Dense Matrix Linear Algebra (Dongarra ) SPECralo Nonstrict No Independent job parallelism (Hennmg, ) Aplicații paralele de memorie partajată Dezvoltate la Universitatea Stanford, SPLASH -Stanlord Pat Altei Aplicații pentru memorie partajată SPLASH (Woo și colab , ) Strict (DEȘI sunt admise două volume de probleme) Fără complex D Fast Fourier Transform Blocking LU Descomposition Blocking Scattered Cholesky Factorizare Sortare pe biți a numărului întreg Modelare Barnes-Hatw Modelare rapidă adaptivă Modelare multicâmp Modelare oceanică Emisivitate ierarhică Trasare de raze Renderer volum Modelare a apei cu DVINK Structură spațială Modelare a apei fără structură de date spațiale Benchmark-uri pentru calcul paralel NAS - NAS Parallei Bencb-marks (Bailcy et al ) Neputernic Da (NUMAI C sau Fortran) EP Paralelism extrem MG: Multilatice simplificat CG Rețea nestructurată pentru metoda gradientului conjugat FT folosind Transformate Fourier rapide IS Bulk Sort of numere întregi Set de referințe PARSEC - PARSEC Bencbmark Soite (Biemaet al , ) Non-strict Fără Biackschoies - Modelul de preț al opțiunii Black-Scholes Bodytrack - Urmărirea investițiilor umane Carpi - Modelare de aliniere pentru optimizarea rutei cache-aware Dedup - Compresie anticipată Eeceylp - Facial Modeling Ferret - Server de căutare de conținut similar Fluidanimatc - Dinamica fluidelor pentru animație folosind SPH Freqmine - Streamcluster de extracție frecventă a seturilor de date - Clustering online de swaptions - Swaptions Swap Portofoliu Estimare - K Procesarea imaginilor - codificare video H lrokLizhme rf* Capitolul Multicore, sisteme multiprocesor și clustere Tabelul {continuare) Sarcină de testare Mbc-stacking Reprogramare-swarming Descriere Modele de proiectare dezvoltate la Universitatea din Berkeley - Vekeley Design Pat-ierns (Asanowc et al ) Strict sau non-strict Yes State machine (Fin p*rc MT \parc MT H>egs MT Nmgs MT ipjrc MT ip«rc MT KL aki aki aki aki aki KKI CroHber SwKcti (tufa de BH" In Byt" wrrtr" GBA (wrttethrul | f GB/ (MP MaSherHl ( weyl eu I G '" MN „DDR GIIM” Coberency HutM ( benlu fiecare) x ( b memory controled ( banlu fiecare) Ga/"(trestie> I IO G /i(w»rtel MHz HVO dinamicii este popular pentru dinamica fluidelor computaționale; este un cod trellis structurat cu o secvență de intervale de timp Fiecare punct provoacă aproximativ de citiri și scrieri în virgulă mobilă cu precizie dublă și aproximativ de operațiuni în virgulă mobilă La fel ca SpMV, LBMHD obține de obicei doar o mică parte din performanța de vârf a unui sistem uniprocesor datorită complexității structurilor de date și a modelelor neregulate de acces la memorie Raportul flop/octet este mult mai mare decât , față de mai puțin de , în SpMV Din cauza lipsei de umplere a blocului de memorie cache din memorie în timpul erorilor de scriere, atunci când programul urmează să rescrie întregul bloc, intensitatea crește la , Toate sistemele multi-core oferă această optimizare a memoriei cache, cu excepția UltraSPARC T (Niagara ) Pe fig Figura arată că intensitatea aritmetică a LBMHD este suficient de mare încât să aibă sens să se efectueze optimizări legate atât de lățimea de bandă de calcul, cât și de memorie pe toate sistemele cu mai multe nuclee, cu excepția UltraSPARC T , al cărui punct de margine a liniei acoperișului este sub LBMHD UltraSPARC T poate ajunge la linia acoperișului folosind doar optimizări de calcul Pe lângă paralelizarea codului, au fost utilizate următoarele optimizări pentru LBMHD: ♦ Memory proximity Această optimizare este utilă din aceleași motive ca mai sus ♦ Minimizați ratele când accesați TLB Pentru a reduce semnificativ ratele TLB în LBMHD, ar trebui să utilizați structura și volumul matricei Capitolul Multicore, sisteme multiprocesor și clustere uniți unele bucle, mai degrabă decât abordarea obișnuită de a folosi o serie de structuri ♦ Derularea și reordonarea buclei Buclele sunt extinse și reordonate în grupuri de instrucțiuni cu adrese similare pentru a debloca suficient paralelism și pentru a crește eficiența cache-ului ♦ „LIMO-izare” Compilatoarele celor două sisteme x nu pot genera cod SSE bun deci trebuie scris de mână în limbaj de asamblare Pe fig Figura prezintă performanța a patru sisteme care diferă ca număr de nuclee la executarea sarcinii de testare I RMHD Ca și în cazul SpMV, Intel Cheop e are cea mai slabă scalabilitate De data aceasta, nucleele Opteron X mai puternice depășesc nucleele simple UltraSPARC T IBM Cell și de data aceasta este cel mai rapid sistem Toate sistemele, cu excepția Cheop e scala cu numărul de nuclee, deși T și CeII scalează mai ușor decât Opteron X Orez , in Performanță LBMHD pe patru sisteme multi-core Productivitate Pe lângă performanță, un alt indicator important al revoluției de calcul paralel este productivitatea sau dificultatea software-ului în atingerea performanței Pentru a ilustra diferențele, în Tabelul Figura compară performanța simplă cu performanța după optimizarea completă pentru patru sisteme și două componente de bază UltraSPARC T s-a dovedit a fi cel mai ușor sistem de lucrat datorită lățimii de bandă mari a memoriei și a nucleelor ușor de înțeles Pentru aceste două componente de bază din UltraSPARC T , se poate sfătui pur și simplu să încerce să obții cod de înaltă performanță de la compilator și apoi Hardware real: Efectuarea sarcinilor de control folosiți cât mai multe fire Când utilizați UltraSPARC T , se poate cădea în concepția greșită că nu este necesar să se asigure gradul de asociativitate în funcție de numărul de fire implementate hardware (vezi secțiunea Concepții greșite și neînțelegeri din Capitolul ) Fiecare matriță acceptă de fire de execuție hardware, iar memoria cache L are asociativitate pe patru canale Această inconsecvență poate necesita restructurarea buclei pentru a reduce coliziunile ratate Tabelul Raportul dintre performanța de bază și performanța după optimizarea completă a patru sisteme și două componente de bază Observați performanța ridicată după optimizarea completă oferită de Sun UltraSPARC T (Niagara ) Pentru IBM CeII, nu există o coloană de performanță de bază din cauza incapacității de a porta codul către SPE-uri care nu au dispozitive de cache Deși codul poate fi rulat pe nucleul Power, are performanțe cu un ordin de mărime mai mici decât elementele SPE Prin urmare, acest indicator este ignorat în acest tabel Teal MPU componentă de bază Intel Cheop v SpMV % (Clovertown) lBMhd , , % AMD Opteron X SpMV , , % (Barcelona) LBMHD t % Sun UltraSPARC Spmv , , % T (Niagara ) LBMHD , , % IBMCellQS SpMV * , % LBMHD , % Lucrul cu Xeop e s-a dovedit a fi mai dificil, deoarece a fost dificil de înțeles comportamentul memoriei cu magistralele duble frontale, a fost, de asemenea, dificil de înțeles cum funcționează preîncărcarea hardware și pentru a obține un cod SIMD bun de la compilator Codul C pentru acest sistem și pentru Opteron X este presărat cu generozitate de operatori încorporați care apelează instrucțiuni SIMD pentru a obține performanțe bune Sistemul Opteron X beneficiază de majoritatea tipurilor de optimizări prin urmare, este nevoie de mai mult efort decât pentru Cheop e , deși comportamentul memoriei Opteron X a fost mai ușor de înțeles decât comportamentul său în Cheop e Sistemul CeII are două tipuri de dificultăți: în primul rând, instrucțiunile SIMD pentru SPE erau incomod de compilat, astfel încât compilatorul trebuia să ajute constant compilatorul inserând instrucțiunile necesare în codul C, alcătuit din instrucțiuni în limbaj de asamblare În al doilea rând, sistemul de memorie era mult Capitolul Multicore, sisteme multiprocesor și clustere mai interesant Deoarece fiecare SPE are memorie locală într-un spațiu de adrese separat, codul nu poate fi pur și simplu portat și rulat pe SPE imediat Prin urmare, pentru I HM CelI în Tabel lipsește o coloană de cod de bază și trebuie să modificăm programul pentru a lansa comenzi DMA pentru a transfera date înainte și înapoi între stocarea locală și RAM Din fericire, DMA a jucat rolul unui prefatch software în dispozitivele de memorie cache, iar DMA este mult mai ușor de utilizat și obține în continuare performanțe ridicate de memorie Sistemul Cell a fost capabil să ofere acestor componente de bază aproape % din lățimea de bandă maximă a memoriei care este definită de „linia acoperișului”, mai degrabă decât % sau mai puțin furnizată de alte sisteme multi-core Concepții greșite și neînțelegeri Timp de mai bine de un deceniu, profeții au susținut că organizarea computerului individual și-a atins limitele și că îmbunătățirile cu adevărat semnificative pot fi făcute numai prin combinarea unui număr mare de computere, astfel încât să se poată obține soluții cumulative S-a dovedit că valabilitatea utilizării unui procesor separat nu s-a epuizat încă Dxin Amdal Numeroase atacuri asupra procesării paralele a datelor au scos la iveală un număr mare de concepții greșite și neînțelegeri Această secțiune va aborda trei concepții greșite Iluzie Legea lui Amdahl nu se aplică calculatoarelor paralele În , într-o zi, șeful unei organizații de cercetare a susținut că legea lui Amdahl a fost încălcată pe o mașină multiprocesor În acest punct, se poate trage o concluzie destul de evidentă - eforturile depuse pentru a obține rate mari de procesare paralelă vor fi zadarnice dacă nu sunt însoțite de realizări aproape la fel de semnificative în vitezele de procesare secvențială Această afirmație nu ar trebui să-și piardă adevărul, deoarece o parte neglijentă a programului ar trebui să limiteze performanța Una dintre interpretările legii conduce la următoarea lemă: părțile fiecărui program nu pot fi neconsecutive, deci trebuie să existe o limită justificată economic pentru numărul de procesoare, să zicem, Când se demonstrează accelerația liniară cu de procesoare, această lemă este infirmată și, prin urmare, nerespectarea este declarată legea Amdal Concepții greșite și neînțelegeri Cercetătorii au folosit scalarea non-strictă ca abordare: în loc să urmeze condițiile unei creșteri de de ori a vitezei cu același set de date, au stabilit de de ori mai multă muncă de calcul într-un timp comparabil Pentru algoritmul lor, partea serială a programului a fost neschimbată, indiferent de cantitatea de date de intrare, iar restul a fost complet paralel - prin urmare, s-a obținut o accelerare liniară folosind de procesoare Este clar că legea lui Amdahl se aplică și procesoarelor paralele Aceste studii au stabilit că una dintre principalele utilizări ale computerelor mai rapide este de a rezolva probleme mari, dar trebuie să înțelegeți cum se scalează algoritmul pe măsură ce dimensiunea problemei crește Iluzie Performanța maximă este o proiecție a performanței observate Secțiunea arată, de exemplu, că Intel Cheop e microprocesorul cu cea mai mare performanță de vârf a fost cel mai lent dintre cele patru microprocesoare multi-core pentru cele două categorii de sarcini de testare de bază Industria calculatoarelor folosește această cifră în scopuri de marketing, iar atunci când utilizează mașini paralele, această concepție greșită doar se intensifică Nu numai că specialiștii în marketing folosesc performanța de vârf aproape de neatins a unui singur nod de procesor, dar apoi înmulțesc această cifră cu numărul de procesoare, presupunând accelerarea absolută este atinsă! Legea lui Amdahl arată cât de greu este să ajungi la orice vârf; la înmulțirea capacităților celor două componente, se înmulțesc și lipsurile acestora Modelul de linie a acoperișului ajută la punerea performanței de vârf în locul metricii înainte Neînțelegere Nu a fost dezvoltat niciun software care să profite de arhitectura multiprocesor sau să fie optimizat pentru utilizarea acestuia Software-ul are o lungă istorie de a rămâne în urma procesoarelor paralele Pentru a arăta esența problemei, vom da un singur exemplu, dar există foarte multe astfel de exemple! Destul de des există o problemă de adaptare la un mediu multiprocesor a acelor programe care au fost dezvoltate pentru un sistem cu un singur procesor De exemplu Sistemul de operare SGI a protejat inițial tabelul de pagini cu o singură blocare, pornind de la presupunerea că alocările de pagini erau rare, dar nu au existat probleme de performanță pe un sistem cu un singur procesor Dar pe un sistem multiprocesor, acest lucru a devenit un blocaj major de performanță pentru unele programe Luați în considerare un program care utilizează un număr mare de pagini inițializate la pornire, ceea ce UNIX face cu privire la paginile alocate static Să presupunem că programul a fost paralelizat, astfel încât paginile să poată fi distribuite la mai multe procese simultan Deoarece alocarea paginilor necesită utilizarea unui tabel de pagini, care este blocat oricum Capitolul Sisteme și clustere multicore, multiprocesor folosiți-l, chiar și nucleul sistemului de operare, care permite mai multe fire de execuție în sistemul de operare, va fi pus în modul serial dacă toate procesele încearcă să-și aloce paginile în același timp (ceea ce este exact ceea ce ne-am aștepta în timpul inițializării!) Acest transfer de lucru cu tabelul de pagini în modul serial elimină utilizarea modului |>paralel în timpul inițializării și are un impact semnificativ asupra performanței generale a sistemului paralel Acest blocaj de performanță persistă chiar și pentru paralelismul la nivel de job Să presupunem, de exemplu, că împărțim un program de procesare paralelă în joburi separate și rulăm aceste joburi unul câte unul pe fiecare procesor, neavând nimic în comun între joburi (Acesta este exact ceea ce a făcut un utilizator, crezând în mod rezonabil că problema de performanță din programul său se datora utilizării involuntare a resurselor partajate sau interferențelor reciproce ) Din păcate, blocarea pune în continuare toate lucrările în modul de procesare secvențială, deci se observă o performanță slabă atunci când îndeplinesc sarcini care sunt independente unele de altele Această neînțelegere arată că există acest tip de eroare de performanță care, cu toată semnificația lor, sunt de natură foarte subtilă și pot apărea la rularea programelor pe sisteme multiprocesor Ca multe alte componente software cheie, algoritmii sistemului de operare și structurile de date ar trebui revizuite atunci când se lucrează într-un mediu multiprocesor Și problema sarcinii pe care tocmai am discutat este rezolvată destul de eficient prin propagarea blocărilor peste secțiuni mici ale tabelului de pagini Comentarii finale Dedicăm toate dezvoltările noastre viitoare proiectelor multi-core Suntem încrezători că acesta este un punct cheie care schimbă direcția industriei Aceasta nu este o tendință nouă Aceasta este o transformare completă a calculatoarelor Pm Otellini Visul de a crea un computer prin simpla combinare a procesoarelor a fost în aer încă din zilele de la începutul tehnologiei informatice Dar crearea și utilizarea procesoarelor paralele eficiente și practice nu a fost deosebit de rapidă Un progres atât de mic a fost limitat de complexitatea rezolvarea problemelor software, precum și a procesului prelungit de dezvoltare a arhitecturii multiprocesor care vizează îmbunătățirea ușurinței în utilizare și creșterea rentabilității Acest capitol a acoperit multe dintre problemele complexe asociate cu software-ul, inclusiv dificultățile de a scrie programe care obțin rezultate bune Comentarii finale accelerația noastră cauzată de legea lui Amdahl Dificultățile în dezvoltarea software-ului sunt legate de varietatea mare de abordări arhitecturale și de succesul foarte limitat și durata scurtă de viață a multor arhitecturi paralele din trecut După cum sa menționat în capitolul , industria tehnologiei informației își vede viitorul în calculul paralel Deși este ușor de susținut că și aceste eforturi vor eșua, ca multe altele făcute în trecut, există o serie de motive pline de speranță: ♦ Rolul software-ului ca serviciu este, fără îndoială, în creștere, iar clusterele au dovedit că utilizarea lor poate avea un mare succes Oferind redundanță la cel mai înalt nivel, inclusiv centre de date dispersate geografic, aceste servicii oferă acces non-stop clienților din întreaga lume în modul la Este ușor de imaginat că atât numărul de servicii per centru de date, cât și numărul de -centre vor creste Desigur, aceste centre de date vor profita de modelele multi-core, deoarece pot folosi deja mii de procesoare în aplicațiile lor ♦ Utilizarea procesării paralele a datelor a câștigat popularitate în domenii precum calculul științific și de proiectare, iar aplicațiile au necesitat întotdeauna o cantitate crescândă de calcul Există, de asemenea, multe aplicații care au o mare cantitate de paralelism natural Acest domeniu de aplicare este, de asemenea, dominat de clustere De exemplu, dacă te uiți la raportul curselor Lin din , devine clar că clusterele reprezentau mai mult de % din cele mai rapide de computere Cu toate acestea, nu totul este atât de ușor: programarea procesoarelor paralele chiar și pentru aceste aplicații rămâne o sarcină foarte dificilă Cu toate acestea, acest imperiu va folosi, fără îndoială, și cristale multi-core pentru că și aici există experiență în utilizarea a sute și mii de procesoare ♦ Toți producătorii de microprocesoare pentru desktop și servere creează multiprocesoare pentru a obține, prin urmare, performanțe mai mari spre deosebire de trecut, nu există modalități ușoare de a îmbunătăți performanța aplicațiilor secvențiale Programatorii care trebuie să îmbunătățească performanța ar trebui să-și paralelizeze programele sau creați noi programe care rulează în paralel ♦ Mai multe procesoare pe un singur cip realizează o viteză de comunicare complet diferită față de modelele cu mai multe cipuri, oferind o latență mult mai mică și un randament mult mai mare '>aceste îmbunătățiri pot facilita obținerea unor performanțe bune Prggrimiі desalinizare, PRML STYASHSHMYU* ■ tip de serviciu I În loc să distribui software-ul obyasltzhi” Pentru clienți, acesta este un instrument de securitate care poate fi folosit pentru a securiza marja Mgermet, de obicei printr-o interfață web Comision de la clienții gvea etsa pe baza software-ului tgog „ee Acum luați în considerare care dintre aceste cazuri utilizează deja o anumită formă de paralelism (de exemplu, spălarea tuturor dinților odată, mai degrabă decât unul într-o singură perioadă de timp, purtarea unei cărți față de ceea ce se află în servietă mai multe cărți sunt plasate deodată și toate sunt transferate Acum luați în considerare care dintre activități pot fi realizate în paralel (de exemplu, micul dejun și ascultarea știrilor) Pentru fiecare caz, spuneți cu care dintre celelalte cazuri poate fi asociat | | Ce poate fi schimbat în sistemele actuale (ex duș, haine, televizor, mașină) în legătură cu rezolvarea problemelor exercițiului pentru a crește numărul de cazuri de rulare paralelă? [ Estimați măsura în care raportul timp-greutate al acestor sarcini este redus prin încercarea de a rula cât mai multe sarcini posibil în paralel Exercițiul Multe aplicații computerizate folosesc datele de căutare și sortare Pentru a reduce timpul necesar pentru a finaliza aceste sarcini consumatoare de timp, au fost concepute o serie de algoritmi eficienți de căutare și sortare În acest exercițiu, vom analiza cum putem paraleliza cel mai bine aceste sarcini [ | Luați în considerare următorul algoritm de căutare binar (un algoritm clasic de împărțire și cucerire) care caută valoarea X într-o matrice sortată A de N elemente și returnează indexul elementului corespunzător: Binary$earcti(A[O N- ] X) ( scăzut = O hlgh-N- wtnle (low X) tngh - ixid - else if (A("id] Acum să presupunem că Y este egal cu N Cum vă afectează acest lucru concluziile din răspunsul anterior? Dacă ați fost însărcinat să obțineți cel mai bun factor de accelerare posibil (cu scalare strictă), explicați cum puteți modifica acest cod pentru a-l obține Capitolul Sisteme și clustere multicore, multiprocesor Exercițiul Luați în considerare următorul fragment de cod C: fo Câte cicluri de ceas vor fi necesare pentru a executa toate instrucțiunile într-o iterație a buclei prezentate mai sus? [ ] Când o instrucțiune într-o iterație ulterioară a unei bucle depinde de o valoare de date produsă într-o iterație anterioară a aceleiași bucle, spunem că este o dependență introdusă de bucla între iterațiile acelei bucle Determinați dependențele introduse de buclă în codul de mai sus Definiți variabilele de program dependente și registrele corespunzătoare lui nm la nivel de asamblare Variabila j de organizare a buclei poate fi ignorată [ ] Derularea buclei a fost descrisă în Capitolul Aplicați o astfel de derulare acestei bucle și apoi luați în considerare rularea acestui cod pe un sistem cu două noduri, memorie partajată și transmitere de mesaje Să presupunem că vom folosi transmiterea de mesaje discutată în Secțiunea - , unde am introdus noua operațiune send(x, y), care trimite o valoare y la nodul x, și operația gesei (y), care așteaptă valoarea trimis la nod Să presupunem că este nevoie de un ciclu pentru a începe operațiunile de trimitere (adică operațiunile ulterioare pe același nod pot rula în ciclul următor), dar trimiterea către nodul de destinație durează cicluri Instrucțiunile Geset e suspendă până atunci execuția instrucțiunilor pe nod până când primesc un mesaj Creați un program pentru două bucle, presupunând că factorul de derulare a corpului buclei este de (adică corpul buclei va apărea de ori) Numărați numărul de cicluri de ceas necesar pentru a executa o buclă de program pe un sistem de transmitere a mesajelor ] Latența rețelei interne joacă un rol important în eficiența sistemelor de mesagerie Cât de rapidă trebuie să fie rețeaua internă pentru a gestiona orice accelerare de la utilizarea sistemului distribuit descris în Exercițiul ? Exercițiile Exercițiul Luați în considerare următorul algoritm de mergesort recursiv (un alt algoritm clasic de împărțire și cucerire) Algoritmul de mergesort a fost descris pentru prima dată de John von Neumann în S-a bazat pe ideea de a împărți o listă nesortată x de m elemente în două subliste, a căror dimensiune este de aproximativ jumătate din lista originală Această operație se repetă pentru fiecare sublistă și continuă până când se obțin liste cu o lungime de un element Apoi, începând cu sublistele de un element, cele două subliste sunt „unite” într-o singură listă sortată Nergesort(m) var Hst stânga dreapta rezultat f lungime (m) s întoarce m altfel var mddle - lungime (m) / pentru eacn x în l până la „ndflle adăugați x la stânga pentru fiecare x din i după Biddle adăugați x la dreapta stânga - NergesortUeft) dreapta • Mergesort(dreapta) rezultat ■ Mergeileft rignt) returnează rezultatul Pasul de îmbinare este efectuat de următorul cod: Merge(ieft nght) var hstresult în timp ce lungimea (stânga) > și lungimea (dreapta) > dacă primul (stânga) S primul (dreapta) adăugați primul (stânga) la rezultatul stânga - rest (stânga) altfel adăugați primul(ngt) la rezultat dreapta - rest(ringt) f lungime (stânga) > adăugați rest(stânga) la rezultat dacă lungimea (night) > adăugați rest(dreapta) la rezultat returnează resu't [ ] Să presupunem că aveți Y nuclee într-un procesor multi-core pentru a rula MergeSort, presupunând că v este mult mai mică decât lungimea lui ■ lenqth(m), determinați factorul de accelerație pe care vă așteptați să îl obțineți pentru valorile Y și ength(e) Grafică totul [ ] Acum imaginați-vă că Y este lungimea (m) Cum vă afectează acest lucru concluziile din răspunsul anterior? Dacă aveți sarcina de a obține cel mai bun factor de accelerare posibil (cu scalare strictă), explicați cum puteți modifica acest cod pentru a-l obține Capitolul Sisteme și clustere multicore, multiprocesor Exercițiul Încercați să coaceți plăcinte cu afine de trei kilograme Plăcinta folosește următoarele ingrediente: cană unt înmuiat eu cana de zahar ouă mari lingurita extract de vanilie / lingurita sare / lingurita nucsoara / cani de faina cană afine Rețeta pentru a face o plăcintă este următoarea: Preîncălziți cuptorul la T ( 'C) Unt și făină o formă de plăcintă Într-un castron mare, bate untul și zahărul împreună cu un mixer la viteză medie până când amestecul devine ușor și pufos Se adauga ouale, vanilia, sare si nucsoara Bate totul până se amestecă complet Treceți mixerul la viteză mică și adăugați făina în trepte de / cană, batând până se combină complet Adăugați cu grijă afinele Întindeți totul uniform în vasul de plăcintă pregătit Coaceți timp de de minute [ ] Sarcina ta este să coaci trei plăcinte cât mai eficient posibil Presupunând că aveți doar un cuptor pentru plăcintă, un castron mare, un vas de copt și un mixer, faceți un plan pentru a face trei tarte cât mai repede posibil Identificați blocajele în această sarcină [ ] Acum să presupunem că aveți trei boluri, trei tigăi și trei mixere Cât de repede va merge procesul cu aceste resurse suplimentare? [ | Acum să presupunem că aveți doi prieteni gata să vă ajute să coaceți plăcinte și un cuptor mare care poate ține toate cele trei plăcinte Cum va schimba acest lucru planul pe care l-ați făcut în Exercițiul ? [ | Comparați sarcina de coacere a plăcintei cu rularea a trei iterații ale buclei pe un computer paralel Determinați dacă există paralelism la nivel de date și paralelism la nivel de sarcină în bucla de coacere a plăcintei Exercițiul Înmulțirea matricelor joacă un rol important într-o serie de aplicații Două matrice pot fi înmulțite numai dacă numărul de coloane din prima matrice este egal cu numărul de rânduri din a doua matrice Să presupunem că avem o matrice A m * n și trebuie să o înmulțim cu o matrice B n * p Produsul lor poate fi exprimat prin matricea m * p desemnat ca AB (sau A B) Dacă atribuiți matricea C lui AB și folosiți c; desemnați un element din matricea C la poziția (i y), apoi Exercițiile eu сі і = Xa,L/ •a Aj+aAj+-+a L > Г» pentru fiecare element i și j, unde Să presupunem că vom calcula C pe o mașină cu un nucleu și memorie partajată și o mașină cu patru nuclee și memorie partajată Calculați viteza la care v-ați aștepta pe o mașină cu patru nuclee, ignorând orice probleme de memorie [IO] Efectuați din nou exercițiul , cu condiția ca actualizarea la C să întâmpine o pierdere de cache cauzată de eșecul de partajare atunci când elementele succesive dintr-un rând sunt actualizate (adică indexul i este actualizat) ( ] Cum veți face față unei refuzuri de împărtășire care ar putea apărea? Exercițiul Luați în considerare următoarele părți ale a două programe diferite care rulează simultan pe patru procesoare într-un procesator multicore simetric (SMP) Să presupunem că înainte de a rula acest apel, atât x, cât și y au fost Miez :x- ; Miezul : y - ; Miezul : „p - x + y + ; Miezul : z - x + y [ ] Care vor fi toate valorile posibile ale a\x, y și r în rezultatul final? Pentru fiecare rezultat posibil, explicați cum îl putem obține Va trebui să explorați toate intercalările posibile de instrucțiuni [ ] Cum se poate face execuția mai specifică astfel încât să poată fi preluat un singur set de valori? Exercițiul Într-un sistem de memorie partajată cu acces la memorie eterogen coerent în cache (acces la memorie cache-coerent, neuniform-memory CC-NUMA), CPU-urile și memoria fizică sunt împărțite în unități de calcul Fiecare CPU are dispozitive cache locale Pentru a menține coerența memoriei (integritatea sau consistența) pentru fiecare bloc de cache, putem adăuga un bit de stare sau introducem directoare de memorie specializate Când utilizați directoare, fiecare nod oferă un tabel hardware dedicat de gestionat Capitolul Sisteme și clustere multicore, multiprocesor starea fiecărui bloc de memorie care este „local” la acel nod Mărimea fiecărui director este o funcție de dimensiunea spațiului partajat CC-NUMA (o intrare separată este furnizată pentru fiecare bloc de memorie care este local pentru nod ) Dacă informațiile sunt stocate în memoria cache care necesită consistență, aceleași informații sunt adăugate la fiecare cache din fiecare sistem (adică, cantitatea de spațiu de memorie este o funcție de numărul de blocuri cache disponibile în toate dispozitivele cache) Când rezolvați următoarele probleme, imaginați-vă că toate nodurile au același număr de procesoare și aceeași cantitate de memorie (adică procesoarele și memoria sunt împărțite egal între urechile mașinii CC-NUMA) ] Dacă avem P CPU distribuite pe nodurile de sistem CC-NlJMA, și fiecare CPU are blocuri de memorie C și menținem un octet de informații de coerență în fiecare bloc de cache, scriem ecuația, reprezentând cantitatea de memorie care va fi disponibilă în dispozitivele cache ale unui singur nod din sistem pentru a menține coerența Nu includeți spațiul efectiv folosit pentru stocarea datelor în această ecuație, luați în considerare doar spațiul folosit pentru stocarea informațiilor care necesită coerență | Dacă fiecare intrare de director conține un octet de informații pentru fiecare CPU, dacă sistemul nostru CC-NUMA are S blocuri de memorie în total și există Tuzlov în sistem, scrieți o ecuație care să reprezinte cantitatea de memorie disponibilă în fiecare director Exercițiul Să presupunem că sistemul CC-NUMA descris în Exercițiul - are patru noduri, fiecare cu un CPU cu un singur nucleu (și fiecare cu propriile dispozitive de cache de date L și L ) Dispozitivul de cache de date L are un mod de scriere, iar dispozitivul de cache de date de nivelul are un mod de scriere Lăsați sistemul să aibă o sarcină de lucru în care un procesor central scrie la o anumită adresă, iar alți procesori centrali citesc datele pe care le-a scris De asemenea, presupunem că adresa la care se scrie este inițial în memorie și nu în memoria cache locală După o scriere, blocul de actualizat este prezent doar în dispozitivele cache L și L ale nucleului care a efectuat scrierea ( ] Pentru sistemele care furnizează coerență folosind stări de bloc de cache, descrieți schimbul de date între noduri care va fi generat atunci când fiecare dintre cele patru noduri scrie la adrese unice, după care datele de la fiecare adrese la care înregistrarea s-a făcut sunt citite de restul miezurilor de zgomot Exercițiile ) Pentru mecanismul de coerență bazat pe director, descrieți schimbul de date între noduri care ar fi generat prin executarea aceluiași eșantion de cod [ ) Repetați exercițiile și , presupunând că fiecare CPU are acum patru nuclee și fiecare nucleu are un dispozitiv de cache de date L , dar dispozitivul de cache de date L nivelul unu pentru toate cele patru nuclee Fiecare nucleu va scrie, urmat de o citire de către toate celelalte cincisprezece nuclee Luați în considerare sistemul descris în Exercițiul , dar acum presupuneți că fiecare nucleu scrie pe doi octeți diferiți stocați în același bloc cache Cum va afecta acest lucru traficul cu autobuzele? Justificați răspunsul dvs Exercițiul Pe un sistem CC-NUMA, costul accesării memoriei non-locale poate limita capacitatea noastră de a folosi eficient multiprocesarea Următorul tabel compară costurile asociate cu accesările la datele din memoria locală față de cele asociate cu stocarea non-locală, iar localitatea aplicațiilor noastre este exprimată ca proporție a acceselor locale Încărcări din magazinul local (în cicluri) Încărcare non-locală-Salvări (în cicluri) % accesări locale » Răspunde la următoarele întrebări Să presupunem că accesele la memorie sunt distribuite uniform în întreaga aplicație și că putem continua procesarea atunci când este accesată memoria (fără dependențe reale) De asemenea, să presupunem că o singură operație de memorie poate fi activă în fiecare buclă Afirmați orice ipoteză despre ordonarea operațiilor de memorie locală și compararea cu operațiunile non-locale [ ) Dacă, în medie, este necesar un acces la memorie la fiecare de cicluri, care ar fi impactul asupra aplicației noastre? [ Dacă, în medie, este necesar un acces la memorie la fiecare de cicluri, care ar fi impactul asupra aplicației noastre? ( ) Dacă, în medie, este necesar un acces la memorie la fiecare de cicluri, care ar fi impactul asupra aplicației noastre? Exercițiul Problema Filozofilor dining este o problemă clasică de sincronizare și paralelism Filozofii stau la o masă rotundă făcând unul din două lucruri: se așează sau se gândesc Când mănâncă, nu gândesc, iar când cred că nu mănâncă În centru este un castron cu spaghete între fiecare pereche Capitolul Multi-core sisteme multiprocesor și clustere philosophers lie fork Ca urmare, fiecare filosof are o furcă la stânga și una la dreapta Având în vedere particularitățile consumului de spaghete, filosoful are nevoie de două furculițe pentru a mânca și poate folosi doar acele furculițe care se află imediat la stânga și la dreapta lui Filosofii nu vorbesc între ei [ ] Descrieți scenariul în care niciunul dintre filosofi nu mănâncă vreodată (adică atârnă) Care este succesiunea evenimentelor care duc la această problemă? ] Descrieți cum puteți rezolva această problemă prin introducerea conceptului de prioritate Dar putem garanta egalitatea tuturor filosofilor? Explică-ți răspunsul Imaginați-vă acum că am angajat un ospătar care are sarcina de a împărți furculițele între filozofi Nimeni nu poate lua o furculiță până nu obține permisiunea chelnerului Chelnerul are toate informațiile despre toate furculițele Atunci, dacă introducem o regulă conform căreia filozofii vor cere întotdeauna permisiunea de a lua furculița care se află în stânga lor înainte de a cere permisiunea de a lua furculița care este în dreapta, atunci putem garanta evitarea blocajului [ ] Putem implementa cereri către chelner fie ca coadă de solicitări, fie ca reîncercări periodice de solicitare Când se utilizează o coadă, cererile sunt procesate în ordinea în care sunt primite Problema cu utilizarea unei cozi este că nu putem deservi întotdeauna filozoful a cărui solicitare se află în fruntea cozii (din cauza indisponibilității resurselor) Descrieți un scenariu care implică cinci filozofi care implică o coadă dar serviciul nu este oferit, chiar dacă sunt disponibile furculițe, pentru ca un alt filozof (a cărui cerere este mai profundă) să mănânce [ ] Problema de la exercițiul va fi rezolvată dacă cererile către ospătar sunt implementate prin repetarea periodică a cererii noastre până la până când resursele devin disponibile? Justificați răspunsul dvs Exercițiul Luați în considerare următoarele trei dispozitive CPU: CPU SS; un microprocesor superscalar dual-core care oferă capacitatea de a executa instrucțiuni pe două unități funcționale - unități funcționale (FU) cu o schimbare în ordinea acestor instrucțiuni Numai un fir poate rula pe fiecare nucleu la un moment dat CPU MT: este multithreading cu granulație fină, permițând instrucțiunilor din două fire de execuție să se execute în paralel (adică are două blocuri funcționale), deși doar o instrucțiune a unui fir poate fi executată pe ciclu de ceas CPU SMT: Permite instrucțiunilor din două fire de execuție să ruleze în paralel (adică are două blocuri funcționale) și într-un ciclu, instrucțiunile din fiecare fir din două fire sau instrucțiuni din ambele fire pot fi rulate Să presupunem că pentru a rula pe aceste procesoare avem două fire - X și Y, care includ următoarele operații; Exercițiile Flux X Flux V A - execuția durează cicluri E - nu are dependențe A - depinde de rezultatul executării lui A B - intră în conflict cu B pentru dreptul de a utiliza blocul funcțional AZ - intră în conflict cu A pentru dreptul de a utiliza blocul funcțional OT - nu are dependențe A - depinde și de rezultatul execuției lui A - depinde de rezultatul execuției Să presupunem că toate instrucțiunile durează un ciclu de ceas pentru a se finaliza, cu excepția cazului în care se specifică altfel sau dacă nu există nicio coliziune [ ] Să presupunem că aveți un CPU de tip SS Câte cicluri vor fi necesare pentru ca aceste două fire să ruleze? Câte sloturi vor fi irosite din cauza conflictelor? [ | Acum să presupunem că aveți un CPU de tip MT Câte cicluri vor fi necesare pentru ca aceste două fire să ruleze? Câte sloturi vor fi irosite din cauza conflictelor? | Să presupunem că aveți un procesor SMT Câte cicluri vor fi necesare pentru ca aceste două fire să ruleze? Câte sloturi vor fi irosite din cauza conflictelor? Exercițiul Pentru a reduce costurile de gestionare a serverelor de înaltă performanță de astăzi, software-ul pentru crearea unui mediu virtual este distribuit în mod activ Companii precum VMWare, Microsoft și IBM au dezvoltat o întreagă linie de produse de virtualizare Conceptul de bază discutat în Capitolul este posibilitatea de a introduce un strat de hipervizor între hardware și sistemul de operare, permițând mai multor sisteme de operare să partajeze același hardware fizic Layerul de hipervizor este responsabil pentru alocarea CPU și resurse de memorie și furnizarea acelor servicii care rulat de obicei de sistemul de operare (de exemplu, pentru furnizarea de I/O) Virtualizarea oferă o vedere abstractă a hardware-ului subiacent din perspectiva sistemelor de operare și aplicațiilor găzduite Acest lucru ne cere să regândim modul în care sistemele multi-core și multi-procesor vor fi proiectate în viitor pentru a sprijini partajarea CPU-urilor și a dispozitivelor de memorie pe mai multe sisteme de operare în paralel [ | Selectați două hipervizoare de pe piață astăzi și căutați asemănări și diferențe în modul în care gestionează virtualizarea și hardware-ul (CPU și memorie) [ Anchize ce schimbări ar putea fi necesare într-o viitoare platformă multi-core pentru a satisface mai bine cerințele de resurse impuse unor astfel de sisteme De exemplu, poate fi multi-threading T Capitolul Sisteme multicore, multiprocesor și clustere joacă un rol important în reducerea nivelului de concurență pentru resursele de calcul? Exercițiul Este necesar să se efectueze ciclul prezentat cât mai eficient Avem două mașini diferite la dispoziție M MD și SIMD Gog ( - , Pentru o mașină MIMD cu patru procesoare, afișați secvența instrucțiunilor MIPS care vor fi executate pe fiecare CPU Ce accelerație se va obține pe această mașină M MD? | | Scrieți un program de asamblare pentru o mașină SIMD cu opt blocuri de funcție SIMD paralele folosind propriile extensii SIMD la MIPS pentru a executa bucla Comparați numărul de instrucțiuni efectuate pe o mașină SIMD și pe o mașină MIMD Exercițiul Un exemplu de mașină MISD este matricea sistolică Este o rețea de conducte sau „front de undă” a elementelor de procesare a datelor Fiecare dintre aceste elemente nu are nevoie de un contor de program, deoarece execuția este comutată de datele primite Matricea sistolică sincronizată efectuează calcule într-un mod de „configurare dură”, în care fiecare procesor realizează faze de calcul şi comunicare ( ] Luați în considerare implementarea propusă a matricei sistolice (informații despre aceasta pot fi găsite pe Internet sau în publicațiile tehnice) Apoi încercați să programați ciclul din exercițiul folosind acest model MISD Analizați orice dificultăți pe care le veți avea întâlnire [ ] Analizați asemănările și diferențele dintre mașinile M SD- și S M D Utilizați terminologia de paralelism la nivel de date atunci când faceți acest lucru Exercițiul Să presupunem că vrem să rulăm bucla DAXP din exercițiul „Compararea vectorilor cu codul simplu” din secțiunea - și asamblatorul MIPS de pe procesorul NVIDIA GTX GPl J discutat în acest capitol În rezolvarea acestei probleme, vom presupune că toate operațiile matematice sunt efectuate pe numere în virgulă mobilă cu precizie unică (vom redenumi bucla în SAXP) Să presupunem că următorul număr de cicluri de ceas sunt cheltuite pentru executarea instrucțiunilor Exercițiile Lo*d* Magazine Add S Muft S [ ) Descrieți cum veți deforma pentru o buclă SAXP pentru a utiliza cele opt nuclee furnizate într-un singur multiprocesor Exercițiul Descărcați de pe www nvxjia com/ob|ect/cuda get html CUDA Toolkit și SDK Utilizați versiunea „emureleave” (modul de emulare) a codului (nu este nevoie de hardware NV D A real pentru această atribuire) Creați exemplele de programe furnizate în SDK și asigurați-vă că rulează pe un emulator [ ] Folosind „șablonul” furnizat în SDK ca punct de plecare, scrieți un program CUDA pentru a efectua următoarele operații vectoriale: ) a - b (scăderea unui vector dintr-un vector); ) a (produsul scalar al vectorilor) Produsul scalar al doi vectori a - |b|( a, aJ și b - [ ( br , definit împărțit astfel: „vіAi+vA*~+al- ci Furnizați cod pentru fiecare program care demonstrează fiecare operațiune și verifică dacă rezultatele sunt corecte [ | Dacă hardware-ul GPU este disponibil pentru dvs Finalizați analiza performanței programului dvs verificând timpul de calcul pentru versiunea lui GPU și pentru versiunea CPU pentru o gamă de dimensiuni de vector Explicați-vă toate rezultatele Exercițiul AMD a anunțat recent că integrează GPU-ul cu nucleele lor x într-un singur set, deși cu viteze de ceas diferite pentru fiecare nucleu Acesta va fi un exemplu de sistem multiprocesor eterogen, pe care ne așteptăm să fie comercializat în viitorul apropiat Una dintre caracteristicile cheie ale designului va fi capacitatea de a schimba rapid date între procesoarele centrale și grafice Astăzi, comunicarea trebuie făcută între procesoare și GPU separate, dar această stare de lucruri se schimbă în arhitectura Fusion dezvoltată de A MD În prezent, pentru a facilita schimbul intern de date, este planificată utilizarea mai multor (cel puțin ) canale PCI Express Intel intră rapid și el Capitolul Sisteme și clustere multicore, multiprocesor la piață cu cristalul său Larrabee Intel se așteaptă să folosească tehnologia sa de comunicare internă QuickPath [ | Comparați debitul și latența asociate cu aceste două tehnologii backend Exercițiul Uită-te la fig b unde este prezentată topologia conexiunilor interne ale unui n-cub de ordinul trei, în care sunt combinate opt noduri Una dintre caracteristicile atractive ale rețelei interne l-cube este capacitatea de a face față defecțiunilor de linie fără pierderea capacității de comunicare ] Deduceți o ecuație care calculează numărul de legături din cub (unde și este ordinea cubului) care pot fi rupte în timp ce se păstrează garanțiile că legăturile existente neîntrerupte vor oferi o conexiune cu orice obiect al i-cubului ] Comparați toleranța la erori a unui n-cub cu o rețea complet conectată de conexiuni interne cu același număr de noduri Trasează comparația de fiabilitate în funcție de numărul de legături care pot fi întrerupte pentru ambele topologii Exercițiul Testarea de referință este un domeniu de cercetare, o parte din care este găsirea sarcinilor de lucru de referință pentru a rula pe platforme informatice specifice pentru a compara în mod obiectiv performanța a două sisteme În acest exercițiu, veți compara două clase de probleme de control Whetstone CPU benchmark și benchmark PARSEC Alegeți unul dintre programele din suita PARSEC Toate programele trebuie să fie disponibile gratuit pe Internet Luați în considerare rularea mai multor copii ale lui Whetstone față de rularea testului PARSEC pe oricare dintre sistemele din Secțiunea [ ] Care este diferența semnificativă dintre aceste două clase de sarcină de lucru atunci când se efectuează sarcini pe aceste sisteme cu mai multe nave? [ ] În ceea ce privește gooLipe-modsli, cât de dependente sunt rezultatele dvs de aceste benchmark-uri de gradul de prezență a resurselor partajate și de sincronizare în volumul dvs de lucru? Exercițiul La efectuarea calculelor cu matrici rare, latența în ierarhia memoriei devine unul dintre factorii decisivi Matricele rare au o lipsă de localitate spațială în fluxul de date, ceea ce este de obicei Exerciții apare în operațiile matriceale Ca urmare, au fost propuse noi reprezentări matriceale Una dintre cele mai timpurii reprezentări ale unei matrice rare a fost Yale Sparse Matnx Formau Acesta stochează matricea rară m x n originală M sub formă de șir folosind trei tablouri unidimensionale Fie R denotă numărul de elemente nenule din M, putem construiți o matrice A de lungime R, constând din toate elementele non-nule ale lui M (în ordine de la stânga la dreapta și de sus în jos) De asemenea, vom construi o matrice IA de lungime m + (adică un element pe rând plus încă unul) Rândul i ■ Să analizăm matricea rară X prezentată mai jos și să scriem un cod C care va salva această matrice în format Yale Sparse Matnx Linia ( S S S } Linia [ S ) Linia ( S ] Linia ( ] Linia ( s) ] ( ) Folosind conceptul de spațiu de memorie, să presupunem că fiecare element al matricei X are formatul unui număr cu virgulă mobilă de precizie unică Calculați cantitatea de memorie folosită pentru a stoca formatul Yale Sparse Matrix de mai sus ( ] Înmulțiți matricea X cu matricea K prezentată mai jos [nouă ] Puneți acest calcul într-o buclă și cronometrați-l să ruleze Măriți numărul de repetări ale acestui ciclu pentru a obține măsurători de timp acceptabile Comparați timpul de execuție atunci când utilizați o reprezentare matriceală obișnuită și reprezentarea sa Yale Sparse Matnx Format ( ] Puteți găsi un format mai eficient pentru reprezentarea unei matrice rare (în termeni de spațiu și de calcul)? Exercițiul În sistemele viitoare, ne așteptăm să vedem platforme de calcul eterogene create pe baza procesoarelor centrale eterogene Apariția lor este deja observată pe piața dispozitivelor de calcul încorporate în sisteme care conțin procesoare de semnal digital și procesoare centrale microcontroler într-un modul cu un singur cip Să presupunem că aveți trei clase de procesoare: CPU A - unitate centrală de procesare multi-core de viteză medie (cu calcule în virgulă mobilă im) capabilă să execute mai multe instrucțiuni într-un singur ciclu T G Capitolul Sisteme multicore, multiprocesor și clustere CPU B este un CPU întreg rapid, cu un singur nucleu (adică, fără unitate în virgulă mobilă) capabil să execute o instrucțiune într-un singur ciclu de ceas CPU C este un procesor vector lent (cu capacitate de virgulă mobilă) capabil să execute mai multe copii ale aceleiași instrucțiuni într-un singur ciclu de ceas Să presupunem că procesoarele noastre funcționează la următoarele viteze de ceas: CPU A CPU B CPU C , GHz ZGHz MHz CPU A poate executa instrucțiuni pe ciclu, CPU I poate executa instrucțiune pe ciclu și CPU C poate executa instrucțiuni (deși aceleași) pe ciclu Să presupunem că toate operațiunile pot finaliza execuția cu același număr de cicluri de latență și fără coliziuni Toate procesoarele au capacitatea de a efectua aritmetică cu numere întregi, iar CPU B nu poate efectua în mod direct aritmetica în virgulă mobilă CPU-urile L și B au un set de instrucțiuni similar cu cel al MIPS-npoucccopa CPU C poate efectua doar adunarea și scăderea în virgulă mobilă, precum și operațiunile de încărcare și stocare a memoriei Să presupunem că toate procesoarele au acces la o memorie comună și nu există nicio suprasarcină de sincronizare Sarcina este de a compara două matrice, X și Y, fiecare conținând * elemente în virgulă mobilă Este necesar să se numără numărul de cazuri în care valoarea din X a fost mai mare decât valoarea din Y f ] Descrieți cum ați împărți sarcina între trei procesoare diferite pentru a obține cea mai bună performanță Ce tip de instrucțiuni ați adăuga la un procesor vector C pentru o performanță mai bună? Exercițiul Să presupunem că un sistem informatic cu patru nuclee poate procesa o tranzacție de bază secretă la o rată constantă de solicitări pe secundă De asemenea, presupunem că fiecare tranzacție necesită o perioadă fixă de timp pentru a fi procesată Următorul tabel prezintă perechi de latență și viteza de procesare a tranzacției Latența medie a tranzacției Viteza maximă* de procesare a tranzacției ms /s ms /s ms /s ms /s Exercițiile Răspundeți la următoarele întrebări pentru fiecare pereche prezentată în tabel: [ ] Câte cereri sunt procesate în medie la un moment dat? [ ] Ce s-ar întâmpla în mod ideal cu debitul atunci când se trece la un sistem octa-core (adică câte tranzacții pe secundă ar procesa un procesor)? [ ] Explicați de ce rareori obținem acest tip de accelerare prin simpla creștere a numărului de nuclee Răspunsuri la întrebări pentru autoexaminare Secțiunea : Afirmația este falsă Paralelismul la nivel de job poate ajuta aplicațiile seriale, iar aplicațiile seriale pot fi construite pentru a rula pe hardware paralel, deși acest lucru le face mai dificil de dezvoltat Secțiunea : Afirmația este falsă Scalarea nestrictă poate compensa porțiunea secvențială a unui program care altfel ar limita scalabilitatea Secțiunea : Afirmația este falsă Deoarece adresa fizică este partajată, mai multe joburi, fiecare în propriul spațiu de adrese virtuale, pot rula în mod normal pe un multiprocesor cu memorie partajată Secțiunea : I Afirmația este falsă Trimiterea și primirea mesajelor este un exemplu de sincronizare ascunsă, precum și o modalitate de a partaja date Afirmația este adevărată Secțiunea : Afirmația este adevărată Afirmația este adevărată Secțiunea ; Afirmația este adevărată Secțiunea : Afirmația este falsă Modulele grafice DRAM Dl MM sunt apreciate pentru lățimea de bandă mai mare Secțiunea : Afirmația este adevărată Pentru a câștiga competiția de producție Novanis în calculul paralel, probabil că avem nevoie de inovație în întregul pachet hardware și software David Patterson, John Hennessy Arhitectura calculatoarelor si proiectarea sistemelor informatice Clasici de informatică editia a -a Tradus din engleză de N Vilchinsky Manager editorial Manager de proiect Redactor principal Redactor literar Editor de artă Correctori Aspect A Krѵtsov A Yurcheyaao Yu Sergienko A Gushchin K Rodtschin S fieiaean, N Vikgporoea E Egproea -Mir agmag- I C O Svietul Petersburg autostrada Peterhof , ait A Taxaaa argva arsherosenisp * produse kassafikagor PK - volum - literatură educațională Semnat și zbor II format x / Us * p a Circulație Apus de soare Y Tipărit conform designului СіР și OJSC - Perem Obrioam tipografic - și o jumătate de cadru mai întunecat - Tipărit aaor Saaakt Petersburg Chkalovsky pr ȚI PLAC CĂRȚILE NOASTRE? CÂȘTIGAȚI CU NOI! Ai propriul tău site? Ai blog? Postezi regulat pe forumuri? Sunteți interesat de literatură, doriți să recomandați cărți bune și doriți să deveniți partenerul nostru? ASTA ESTE COMPLET REAL! DEVENI PARTICIPANT PROGRAM DE PARTENER AL EDITURII „PITER”! Înregistrați-vă pe site-ul nostru ca partener la www piter com/ePartners Obțineți numărul personal unic de partener Alegeți cărți pe www ptter com, postați informații despre ele pe site-ul dvs web, blog sau forum și adăugați link-uri către aceste cărți în text (la www piter com) ATENŢIE! Trebuie să adăugați numărul personal unic de partener la fiecare link Primiți de acum % din costul fiecărei achiziții pe care clientul o face venind în magazinul online Piter în linkul cu numărul de partener Și dacă cumpărătorul a cumpărat nu numai această carte, ci și alte publicații Primești % suplimentar din costul fiecărei cărți Puteți folosi banii din contul dvs virtual pentru a cumpăra cărți în magazinul online al editurii Piter și, de asemenea, dacă suma este mai mare de de ruble transferați-le într-un portofel în sistemul Yandex Money sau Web Money Un exemplu de link afiliat: http://www piter com/book phtmt? - sms normal http://www piter com/book phtml refer- - Link Wirthner, unde este numărul dvs unic de afiliat Citiți mai multe despre Programul de parteneriat al Editurii Piter la WWW PITER COM pzalgepmskpp aom CARTE-MAIL PUTEȚI COMANDA CĂRȚI ALE EDITURII „PITER*” ÎN ORICE MOD CONVENIBIL PENTRU DVS : • pe site-ul nostru www piter com • prin email: postbook@prter com • la telefon ( ) - - • prin poștă: , St Petersburg, PO Box , Peter Mail LLC • prin ICQ: PUTEȚI ALEGE ORICE METODĂ DE PLATĂ CONVENIENȚĂ PENTRU DVS : Ramburs la livrare cu plata la primire la cel mai apropiat oficiu postal Cu un card bancar În timpul comenzii, veți fi redirecționat către un server securizat al operatorului nostru, unde puteți introduce detaliile de plată Bani electronici Acceptăm toate tipurile de monedă electronică pentru plată: de la tradițional Yandex Money și Web-money până la USD E-Gold, MopeuMaii INOCard, RBK Money (RuPay), pariuri USD, portofel Mobite etc La orice bancă, prin tipărirea unei chitanțe, care se generează automat după ce plasezi o comandă Toate coletele sunt trimise prin poșta rusă Un sistem bine pus la punct ne permite să organizăm cât mai repede livrarea cumpărăturilor dvs Data plecării achiziției dvs și data estimată a livrării vă vor fi comunicate prin e-mail CÂND PLASEȚI COMANDA, VĂ RUGĂM SĂ INDICĂ: • nume, prenume, patronimic, telefon, fax, e-mail; • cod poștal, regiune, district, localitate, stradă, casă, clădire, apartament, • titlul cărții, autor, numărul de exemplare comandate paltgpskpp aom Fondat în **Kvvpvyomiyam ■ , clubul „Profesional” adună în rândurile sale cunoștințele proprii) lion zhaprzh combină pofta de cunoaștere și dragostea pentru cărți Pentru membrii clubului a avut loc rvzanyays muirshii și desigur că există privilegii Avantajele fecioarei Kwubi: • harta аі ія вза • <д< вь і între sisteme de calcul și software paralel; Exercițiul și sarcinile date după fiecare subiect vă vor ajuta Subiect: Arhitectura computerului / Nivel utilizator: Avansat C^PPTER Zmla pt* "Ch ChV S *** T GKtvyuSurt" ■ ) , "" g І | ) * ) psiv zhZhvr'M "t oovp • YuTZ Hatsshayum Yu de ) "*l (OT L ED " ^i l <I ®mrw"hartow ptw a** www piter com - toate informațiile despre cărți și magazinul online